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The Art of Multiprocessor Programming Revised First Edition 


工业 界 称 为 多 核 的 多 处 理 器 机 器 正 迅速 地 渗入 计算 的 各 个 领域 。 多 处 理 器 编程 要 求 理解 新 型 计算 原理 、 算 法 及 编程 
工具 ， 至 今 很 少 有 人 能 够 精通 这 门 编程 艺术 。 

现今 ， 大 多 数 工程 技术 人 员 都 是 通过 艰辛 的 反复 实践 、 求 助 有 经 验 的 朋友 来 学 习 多 处 理 器 编程 技巧 。 这 本 最 新 的 权 
威 著 作 致 力 于 改变 这 种 状况 ， 作 者 全 面 阐述 了 多 处 理 器 编程 的 指导 原则 ， 介 绍 了 编制 高 效 的 多 处 理 器 程序 所 必 备 的 算法 
技术 。 了 解 本 书 所 涵盖 的 多 处 理 器 编程 关键 问题 将 使 在 校 学生 以 及 相关 技术 人 员 受 益 匪 浅 。 


本 书 特 色 
o 本 修订 版 结合 2008 年 第 1 版 出 版 以 来 课堂 教学 和 读者 反馈 的 勘误 和 修改 意见 ， 对 全 书 进行 了 多 方面 的 修订 和 更 新 。 
循序 渐进 地 讲述 共享 存储 器 多 线程 编程 的 基础 知识 。 
详细 解释 当今 多 处 理 器 硬件 对 并 发 程序 设计 的 支持 方式 。 
全 面 考察 主流 的 并 发 数据 结构 及 其 关键 设计 要 素 。 
从 简单 的 锁 机 制 到 最 新 的 事务 内 存 系统 ， 独 立 、 完 整地 阐述 了 同步 技术 。 
给 出 大 量 利用 Java 并 发 工具 包 编写 的 可 完全 执行 的 Java 实 例 。 
附录 提供 了 采用 其 他 程序 设计 语言 和 包 ( 如 C#、C 及 C++ 的 Pthreads 库 ) 进行 编程 的 相关 背景 知识 以 及 硬件 基础 知识 。 
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文艺 复兴 以 降 ， 源 远 流 长 的 科学 精神 和 逐步 形成 的 学 术 规 范 ， 使 西方 国家 在 自然 科学 的 
各 个 领域 取得 了 区 断 性 的 优势 ， 也 正 是 这 样 的 传统 ， 使 美国 在 信息 技术 发 展 的 六 十 多 年 间 名 
家 辈出 、 独 领 风 骚 。 在 商业 化 的 进程 中 ， 美 国 的 产业 界 与 教育 界 越 来 越 紧密 地 结合 ， 计 算 机 
学 科 中 的 许多 秦山 北斗 同时 身 处 科研 和 教学 的 最 前 线 ， 由 此 而 产生 的 经 典 科学 著作 ， 不 仅 壁 
划 了 研究 的 范畴 ， 还 揭示 了 学 术 的 源 变 ， 既 遵循 学 术 规 范 ， 又 自 有 学 者 个 性 ， 其 价值 并 不 会 
因 年 月 的 流逝 而 减退 。 

近年 ， 在 全 球 信息 化 大 潮 的 推动 下 ,我国 的 计算 机 产业 发 展 迅 猛 ， 对 专业 人 才 的 需求 日 
益 迫 切 。 这 对 计算 机 教育 界 和 出 版 界 都 既是 机 遇 ， 也 是 挑战 ， 而 专业 教材 的 建设 在 教育 战略 
上 显得 举足轻重 。 在 我 国信 息 技术 发 展 时 间 较 短 的 现状 下 ， 美 国 等 发 达 国 家 在 其 计算 机 科学 
发 展 的 几 十 年 间 积 淀 和 发 展 的 经 典 教材 仍 有 许多 值得 借鉴 之 处 。 因 此 ， 引 进 一 批 国外 优秀 计 
算 机 教材 将 对 我 国 计 算 机 教育 事业 的 发 展 起 到 积极 的 推动 作用 ， 也 是 与 世界 接轨 、 建 设 真正 
的 世界 一 流 大 学 的 必由之路 。 

机 械 工业 出 版 社 华章 公司 较 早 意识 到 “出 版 要 为 教育 服务 "。 自 1998 年 开始 ， 我 们 就 将 工 
作 重 点 放 在 了 透 选 、 移 译 国 外 优秀 教材 上 。 经 过 多 年 的 不 懈 努 力 ， 我 们 与 Pearson，McGraw- 
Hill, Elsevier, MIT, John Wiley & Sons，Cengage 等 世界 著名 出 版 公司 建立 了 良好 的 合作 关 
系 ， 从 他 们 现 有 的 数 百 种 教材 中 甄选 出 Andrew S. Tanenbaum, Bjarne Stroustrup, Brain W. 
Kernighan, Dennis Ritchie, Jim Gray, Afred V. Aho, John E. Hopcroft, Jeffrey D. Ullman, 
Abraham Silberschatz, William Stallings, Donald E. Knuth, John L. Hennessy, Larry L. 
Peterson 等 大 师 名 家 的 一 批 经 典 作 品 ， 以 “计算 机 科学 丛书 ”为 总 称 出 版 ， 供 读者 学 习 、 研 究 
及 珍藏 。 大 理 石 纹理 的 封面 ， 也 正体 现 了 这 套 丛 书 的 品位 和 格调 。 

“计算 机 科学 丛书 ”的 出 版 工作 得 到 了 国内 外 学 者 的 易 力 圳 助 ， 国 内 的 专家 不 仅 提供 了 中 
肯 的 选 题 指 导 ， 还 不 辞 劳 苦 地 担任 了 翻译 和 审 校 的 工作 ， 而 原 书 的 作者 也 相当 关注 其 作品 在 
中 国 的 传播 ， 有 的 还 专程 为 其 书 的 中 译本 作 序 。 迄 今 , “计算机 科学 丛书 ”已 经 出 版 了 近 两 百 
个 品种 ， 这 些 书籍 在 读者 中 树立 了 良好 的 口碑 ， 并 被 许多 高 校 采 用 为 正式 教材 和 参考 书籍 。 
其 影印 版 “经 典 原版 书库 ”作为 姊妹 篇 也 被 越 来 越 多 实施 双语 教学 的 学 校 所 采用 。 

权威 的 作者 、 经 典 的 教材 、 一 流 的 译 者 、 严 格 的 审 校 、 精 细 的 编辑 ， 这 些 因素 使 我 们 的 
图 书 有 了 质量 的 保证 。 随 着 计算 机 科学 与 技术 专业 学 科 建 设 的 不 断 完 善 和 教材 改革 的 逐渐 深 
化 ， 教 育 界 对 国外 计算 机 教材 的 需求 和 应 用 都 将 步 和 一 个 新 的 阶段 ， 我 们 的 目标 是 尽善尽美 ， 
而 反馈 的 意见 正 是 我 们 达到 这 一 终极 目标 的 重要 帮助 。 华 章 公 司 欢迎 老师 和 读者 对 我 们 的 工 
作 提 出 建议 或 给 予 指正 ， 我 们 的 联系 方法 如 下 : 


华章 网 站 : www.hzbook.com 

电子 邮件 : hzjsj@hzbook.com 

联系 电话 : (010) 88379604 

联系 地 址 ， 北京 市 西城 区 百 万 庄 南 街 1 号 
邮政 编码 : 100037 
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FERMES bE ae PG LETREN, ERARA PR: 即使 已 熟练 掌握 了 系 
统 提 供 的 各 种 同步 原 语 ， 但 所 编制 的 并 行程 序 的 实际 性 能 似乎 总 有 些 差 强人 意 ， 并 不 十 分 理 
想 。 究 其 原因 ， 问 题 的 根 结 在 于 多 处 理 器 编程 应 是 一 门 科学 和 艺术 完美 结合 的 学 科 。 若 要 在 
多 处 理 器 系统 结构 上 编制 出 性 能 良好 的 并 行程 序 ， 要 求 设 计 者 不 仅 要 精通 多 处 理 器 系统 结构 、 
并 行 算法 以 及 一 些 系统 构建 工具 ， 还 应 能 基于 一 种 设计 理念 ， 充 分 发 挥 个 人 的 想象 空间 ， 合 
理 搭 配 这 些 知识 和 资源 ， 从 而 和 谐 地 构建 完整 的 系统 ， 使 设计 者 能 比 底 层 硬 件 和 操作 系统 
“做 得 更 好 ”。 也 就 是 说 ， 在 编写 多 处 理 器 程序 时 ， 要 能 同时 从 宏观 和 微观 两 种 角度 分 析 问 题 ， 
并 能 在 这 两 种 角度 之 间 灵 活 地 转换 。 

自 20 世 纪 中 叶 第 一 台 通用 电子 计算 机 研制 成 功 以 来 ， 程 序 的 编制 大 多 是 基于 顺序 计算 模 
型 的 ， 程 序 的 执行 过 程 是 操作 的 有 序 序列 。 由 于 顺序 计算 机 能 够 用 图 灵机 精确 地 描述 ， 因 此 
顺序 计算 的 编程 能 在 一 组 易于 理解 且 完备 定义 的 抽象 之 上 进行 ， 而 不 需要 了 解 底 层 的 细节 。 
近年 来 ， 尽 管 单 处 理 器 仍 在 发 展 ， 但 由 于 指令 级 并 行 的 开发 空间 正在 减少 ， 再 加 上 散热 等 问 
题 限制 了 时 钟 频率 的 继续 提高 ， 所 以 单 处 理 器 发 展 的 速度 正在 减缓 ， 这 最 终 导致 了 起 源 于 在 
单独 一 个 唱片 上 设计 多 个 内 核 的 多 处 理 器 系统 结构 的 出 现 。 多 处 理 器 系统 结构 允许 多 个 处 理 
器 执行 同一 个 程序 ， 共 享 同一 程序 的 代码 和 地 址 空间 ， 并 利用 并 行 技术 来 提高 计算 效率 。 在 
这 种 计算 模型 中 ， 并 发 程序 的 执行 可 以 看 做 是 多 个 并 发 线程 对 一 组 共享 对 象 的 操作 序列 ， 为 
了 在 这 种 异步 并 发 环境 中 获得 更 好 的 性 能 ， 底 层 系统 结构 的 细节 需要 呈现 给 设计 者 。 

作为 一 名 优秀 的 程序 设计 员 ， 在 编写 多 处 理 器 程序 之 前 首先 应 弄 清楚 : 多 处 理 器 计算 机 
的 能 力 和 限制 是 什么 ， 在 异步 并 发 计算 模型 中 什么 问题 是 可 解决 的 ， 什 么 问题 是 不 可 解决 
的 ， 是 什么 使 得 某 些 问题 很 难 计算 ,而 又 使 另 一 些 问 题 容易 计算 。 这 要 求 设计 者 具备 一 定 的 
多 核 并 行 计算 理论 基础 知识 ， 掌 握 多 处 理 器 系统 结构 上 并 发 计算 模型 的 可 计算 性 理论 及 复杂 
性 理论 。 其 次 ， 应 掌握 基本 的 多 核 平台 上 的 并 行程 序 设 计 技术 ， 包 括 并 行 算法 、 同 步 原 语 以 
及 各 种 多 核 系统 结构 。 

Maurice Herlihy 教授 和 Nir Shavit 教 授 在 并 发 程序 设计 领域 具有 很 深 的 造 话 ， 并 拥有 40 年 
以 上 一 起 从 事 并 发 程序 设计 教学 的 合作 经 验 。 他 们 对 多 处 理 器 并 行程 序 设 计 技术 做 出 了 巨大 
的 贡献 ， 并 因此 而 成 为 2004 年 ACM/EATCS 哥 德尔 奖 和 2012 年 分 布 式 计算 领域 Dijkstra 奖 的 共 
同 获得 者 。 这 本 由 他 们 合 著 的 专著 致力 于 解决 如 何 采用 更 好 的 并 行 算 法 来 克服 多 核 并 发 程序 
并 行 度 低 的 问题 。 

Amdahl 定 律 早已 明确 地 告诉 我 们 ， 从 程序 本 身 可 获得 的 并 行 度 是 有 限 的 ， 加 速 比 的 提高 
主要 取决 于 程序 中 必须 增加 的 串 行 执行 部 分 ， 而 这 部 分 又 往往 包含 着 具有 相对 较 高 开销 的 通 
信和 协作 。 因 此 ， 在 多 处 理 器 系统 结构 上 ， 如 何 提高 程序 中 必须 串 行 部 分 的 并 行 度 ， 以 及 降 
低 并 行 处 理 器 中 远程 访问 的 时 延 是 我 们 目前 面临 的 两 大 技术 挑战 。 这 些 问 题 的 有 效 解决 ， 必 
须 依 靠 软 件 技术 和 硬件 技术 的 改进 和 发 展 。 本 书 则 侧重 于 对 前 一 个 挑战 的 研究 。 

作者 先 从 宏观 的 抽象 角度 出 发 ， 在 一 个 理想 化 的 共享 存储 器 系统 结构 中 研究 各 种 并 行 算 
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法 的 可 计算 性 及 正确 性 。 通 过 对 这 些 经 典 算法 的 推理 分 析 ， 向 读者 揭示 了 现代 协作 范例 和 并 
发 数据 结构 中 所 隐藏 的 核心 思想 ， 使 读者 学 会 如 何 分 析 饥 饿 和 死 锁 等 微妙 的 活性 问题 ， 深 层 
次 地 研究 现代 硬件 同步 原 语 所 应 具有 的 能 力 及 其 特性 。 随 后 ， 从 微观 的 实际 角度 出 发 ， 针 对 
当今 主流 的 多 处 理 器 系统 结构 ， 设 计 了 一 系列 完美 高 效 的 并 行 算 法 及 并 发 数据 结构 ， 并 对 各 
种 算法 的 效率 及 其 机 理 进行 了 分 析 。 所 有 的 设计 全 部 采用 Java 程 序 设计 语言 详细 地 描述 ， 可 
以 非常 容易 地 将 它们 扩展 到 实际 应 用 中 。 

本 书 的 前 6 章 讲述 了 多 处 理 器 程序 设计 的 原理 部 分 ， 着 重 于 异步 并 发 环境 中 的 可 计算 性 问 
题 ， 借 助 于 一 个 理想 化 的 计算 模型 来 前 述 如 何 描述 和 证 明 并 行程 序 的 实际 执行 行为 。 由 于 其 
自身 的 特点 ， 多 处 理 器 程序 的 正确 性 要 比 顺 序 执行 程序 的 正确 性 复杂 得 多 ， 书 中 为 我 们 展现 
了 一 系列 不 同 的 辅助 论证 工具 ， 令 人 有 耳目 一 新 之 感 。 随 后 的 11 章 阐述 了 多 处 理 器 程序 设计 
的 实践 部 分 。 由 于 在 多 处 理 器 环境 中 编写 程序 时 ， 底 层 系统 结构 的 细节 并 不 像 编写 顺序 程序 
那样 被 完全 隐藏 在 一 种 编程 抽象 中 ， 因 此 ， 本 书 附 录 B 介 绍 了 多 处 理 器 硬件 的 基础 知识 。 最 后 
的 第 18 章 介绍 了 当今 并 发 问题 研究 中 最 先进 的 事务 方法 ， 可 以 预言 这 种 方法 在 今后 的 研究 中 
将 会 越 来 越 重要 。 

感谢 王 振 飞 博士 在 本 书 第 13 ~ 18 章 翻译 中 所 做 的 工作 ， 感 谢 胡 丽 婷 、 囊 巡 KE, BE 
硕 、 张 亮 同 学 在 本 书 翻译 的 初始 资料 整理 中 所 给 予 的 帮助 。 
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本 书 可 以 作为 高 年 级 本 科 生 的 教材 ， 也 可 以 作为 相关 技术 人 员 的 参考 书 。 

读者 应 具备 一 定 的 离散 数学 基础 知识 ， 能 够 理解 “大 0O” 符 号 的 含义 ， 以 及 它 在 NP 完全 
问题 中 所 起 的 作用 ， 熟 悉 计 算 机 系统 的 基本 组 成 部 件 ， 如 处 理 器 、 线 程 、 高 速 缓存 等 ,为 了 
能 够 理解 书 中 的 实例 ， 还 需要 具备 初步 的 Java 知 识 。( 在 使 用 这 些 高 级 程序 设计 语言 之 前 ， 本 
书 阐述 了 语言 的 相关 特征 。) 书 中 提供 两 个 附录 以 供 读 者 参考 : 附录 A 包含 程序 设计 语言 的 相 
关 知识 ， 附 东 B 给 出 了 多 处 理 器 硬件 系统 结构 的 相关 内 容 。 

本 书 前 三 分 之 一 涵盖 并 发 程序 设计 的 基本 原理 ， 阅 述 并 发 程序 设计 的 编程 思想 。 就 像 掌 
担 汽车 驾驶 技术 、 误 饪 食物 和 品尝 鱼子 酱 一 样 ， 并 发 思维 也 需要 培养 ， 需 要 适当 的 努力 才能 
学 好 。 和 希望 立刻 动手 编程 的 读者 可 以 跳 过 这 部 分 的 大 多 数 内容 ， 但 仍 需 阅读 第 2 章 及 第 3 章 的 
内 容 ， 这 两 章 包含 了 理解 本 书 其 他 部 分 所 必 不 可 少 的 基本 知识 。 

在 原理 部 分 中 ， 首 先 讨论 了 经 典 的 互 斥 问题 (第 2 章 ) ， 包 括 诸 如 公平 性 和 死 锁 这 样 的 基 
本 概念 ， 这 对 于 理解 并 发 程序 设计 的 难点 尤为 重要 。 然 后 ， 结 合并 发 执行 和 并 发 设计 中 可 能 
出 现 的 各 种 情形 和 开发 环境 ， 给 出 了 并 发 程序 正确 性 的 定义 (第 3 章 )。 接 着 ， 研 究 了 对 并 发 
计算 至 关 重 要 的 共享 存储 器 的 性 质 〈 第 4 章 ) 。 最 后 ， 介 绍 了 几 种 为 实现 高 并 发 性 数据 结构 而 
使 用 的 同步 原 语 (85, 6%). 

对 于 每 一 位 渴望 真正 掌握 多 处 理 器 编程 艺术 的 程序 设计 人 员 来 说 ， 花 上 一 定 的 时 间 去 解 
决 本 书 第 一 部 分 所 提 及 的 问题 是 很 有 必要 的 。 虽 然 这 些 问 题 都 是 理想 化 的 ， 但 它们 为 编写 高 
效 的 多 处 理 器 程序 提供 了 非常 有 益 的 编程 思想 。 尤 为 重要 的 是 ， 通 过 在 问题 解决 中 获取 的 思 
维 方式 ， 能 够 避免 出 现 那 些 初 次 编写 并 发 程序 的 设计 人 员 普 遍 易 犯 的 错误 。 

接 下 来 的 三 分 之 二 讲述 并 发 程序 设计 的 具体 实践 。 每 章 都 有 一 个 相应 主题 ， 阐 明 一 种 特 
定 的 程序 设计 模式 或 者 算法 技巧 。 第 7 章 从 系统 和 语言 这 两 个 不 同 的 抽象 层面 ， 讨 论争 用 及 自 
旋 锁 的 概念 ， 强 调 了 底层 系统 结构 的 重要 性 ， 指 出 对 于 自 旋 锁 性 能 的 理解 必须 建立 在 对 多 处 
理 器 层次 存储 结构 充分 理解 的 基础 上 。 第 8 章 涉及 等 待 及 管 程 锁 的 概念 ， 这 是 一 种 常用 的 同步 
用 语 〈 特 别 是 在 Java 中 ) 。 第 16 章 包括 并 行 性 及 工作 窃取 问题 ， 第 17 章 则 介绍 了 障碍 技术 ， 这 
种 技术 往往 在 具有 并 发 结构 的 应 用 中 得 以 广泛 的 使 用 。 

其 他 章节 讲述 各 种 类 型 的 并 发 数据 结构 。 它 们 均 以 第 9 章 的 概念 为 基础 ， 因 此 建议 读者 在 
阅读 其 他 章节 之 前 首先 阅读 第 9 章 的 内 容 。 该 章 采 用 链表 结构 来 阅 明 各 种 类 型 的 同步 模式 ， 包 
括 粗 粒 度 锁 、 细 粒度 锁 及 无 锁 结 构 。 第 10 章 则 借助 于 FIFO 队 列 说 明 在 使 用 同步 原 语 时 可 能 
现 的 ABA 问 题 ， 第 11 章 通过 栈 描述 了 一 种 重要 的 同步 模式 一 一 消除 ， 第 13 章 通过 哈 希 映 射 曾 
述 如 何 利 用 固有 并 行进 行 算法 设计 。 高 效率 的 并 行 查找 技术 则 借助 于 跳 表 来 阐述 (第 14 章 ) ， 
而 如 何 通过 降低 正确 性 标准 来 获得 更 高 的 性 能 则 通过 优先 级 队列 进行 了 阐述 (第 15 章 )。 

最 后 ， 第 18 章 介绍 了 在 并 发 问题 的 研究 中 新 出 现 的 事务 方法 ， 可 以 确信 这 种 方法 在 不 远 
的 将 来 会 变 得 越 来 越 重要 。 

并 发 性 的 重要 性 还 没有 得 到 人 们 的 广泛 认可 。 在 此 ，3 引 用 《纽约 时 报 》1989 年 关于 IBM 
PC 中 新 型 操作 系统 的 一 段 评 论 : 
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真正 的 并 发 〈 当 你 唤醒 并 使 用 另 一 个 程序 时 原来 的 程序 仍 继续 运行 ) 是 非常 令 

人 振奋 的 ， 但 对 于 普通 使 用 者 来 说 用 处 却 很 小 。 您 能 有 几 个 程序 在 执行 时 需要 花费 

数秒 甚至 更 多 的 时 间 呢 ? 
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教学 建议 


The Art of Multiprocessor Programming (Revised First Edition) 


对 于 技术 人 员 
技术 人 员 对 直接 解决 手边 问题 的 技术 感 兴趣 ， 针 对 技术 人 员 的 短期 课程 应 该 包括 以 下 


内 容 : 

强调 Amdahl 定 律 及 其 作用 的 第 1 章 。 第 2 章 的 2.1、2.2、2.3 和 2.6 节 ， 了 解 关 于 不 可 能 性 证 
明 的 作用 的 2.8 节 。 第 3 章 的 3.1、3.2、3.4、3.5、3.7、3.8 和 3.9 节 。 

第 7 章 的 7.1~7.6 和 7.9 节 。 对 于 一 些 技术 人 员 来 说 ， 可 能 熟悉 讨论 管 程 锁 和 可 重 入 锁 的 第 8 
章 ， 跳 过 有 关 信 号 量 的 8.5 节 。 

第 9 章 ， 第 10 章 〈 除 10.7 节 外 )， 第 11 章 的 11.1 和 11.2 节 。 

第 13 和 14 章 ， 第 16 章 ( 除 16.5 节 外 )， 第 17 章 的 17.1~17.3 节 ， 


对 于 非 计 算 机 专业 学 生 


非 计 算 机 专业 学 生 对 多 处 理 器 编程 的 基础 知识 以 及 可 能 对 他 们 自 己 领域 有 用 的 技术 感 兴 
趣 ， 针 对 非 计 算 机 专业 学 生 的 中 期 课程 应 该 包括 以 下 内 容 ; 

强调 Amdahl 定 律 及 其 作用 的 第 1 章 。 第 2 章 的 2.1、2.2、2.3、2.5 和 2.6 节 ， 了 解 关 于 不 可 能 
性 证 明 的 作用 的 2.8 节 。 第 3 章 的 3.1~3.5、3.7~3.9 节 。 

第 4 章 的 4.1 和 4.2 节 ， 第 5 章 。 了 解 关 于 一 致 性 的 通用 性 的 第 6 章 。 

第 7 章 的 7.1~7.6 和 7.9 节 ， 第 8 章 。 

第 9 章 ， 第 10 章 ( 除 10.7 节 外 )， 第 11 章 。 

第 13 和 14 章 ， 第 16 章 ， 第 17 章 的 17.1~17.3 节 ， 第 18 章 。 


对 于 计算 机 专业 学 生 


针对 计算 机 专业 学 生 (高 年 级 本 科 生 或 研究 生 ) 的 一 学 期 课程 应 该 包括 以 下 内 容 : 

第 1 章 ， 第 2 章 (2.7 节 可 选 )， 第 3 章 (3.6 节 可 选 )， 第 4 章 ， 第 5 章 ， 第 6 章 。 在 学 习 第 7 章 
之 前 ， 有 必要 复习 一 下 多 处 理 器 系统 结构 的 基础 知识 (附录 B)。 

第 7 章 (7.7 和 7.8 节 可 选 )， 第 8 章 (如 果 学 生 不 熟悉 Java 管 程 知识 )， 第 9 章 ， 第 10 章 (10.7 
节 可 选 )， 第 11 章 ， 第 12 章 (12.7~12.9 节 可 选 )， 第 13 章 ， 第 14 章 。 第 15 章 可 选 。 第 16 章 ， 第 
17 章 。 第 18 章 可 选 。 

本 书 的 配套 网 站 (http://store .elsevier.com/product.jsp?isbn=9780 123973375 ) 为 一 学 期 课 
程 提 供 了 授课 PPT。 
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计算 机 产业 正在 经 历 着 一 场 重大 的 结构 重组 和 巨变 ， 在 没有 其 他 变革 之 前 ， 这 个 过 程 无 
疑 将 会 继续 进行 。 主 要 的 芯片 制造 商 ， 至 少 是 现在 ， 都 纷纷 放弃 尝试 研制 速度 更 快 的 处 理 器 。 
虽然 摩尔 定律 仍旧 适用 : 每 年 集成 在 同样 大 小 空间 中 的 晶体 管 数 越 来 越 多 ， 然 而 ， 由 于 散热 
问题 难于 解决 ， 它 们 的 时 钟 速度 无 法 继续 得 到 提高 。 取 而 代 之 的 做 法 是 ， 制 造 商 开 始 转向 
多核 ”系统 结构 的 研制 ， 由 多 个 处 理 器 (多 核 ) 共享 硬件 高 速 缓存 直接 进行 通信 。 通 过 将 多 
个 处 理 器 同时 分 配给 单一 任务 以 获得 更 高 的 并 行 性 ， 从 而 提高 计算 的 效率 。 

多 处 理 絮 系统 结构 的 普及 对 计算 机 软件 的 发 展 带 来 了 深刻 的 影响 。 直 至 今日 以 前 ， 技 术 
的 进步 意味 着 时 钟 速度 的 提升 ， 时 钟 本身 的 加 速 导致 了 软件 执行 效率 的 提高 。 今 天 ， 这 种 拱 
便 车 的 现象 已 不 复 存 在 ， 技 术 的 进步 不 再 指 时钟 速 度 的 提升 而 是 指 并 行 度 的 提升 ， 并 行 问题 
已 经 成 为 现代 计算 机 科学 的 主要 挑战 。 

本 书 着 重 讲述 共享 存储 器 通信 方式 下 的 多 处 理 器 编程 技术 。 通 常 称 这 样 的 系统 为 共享 
存储 器 的 多 处 理 器 ， 现 在 称 之 为 多 核 。 在 各 种 规模 的 多 处 理 器 系统 中 都 存在 着 不 同 的 编程 
挑战 一 一 对 于 小 规模 的 系统 来 说 ， 需 要 协调 单个 芯片 内 的 多 个 处 理 器 对 同一 个 共享 存储 单元 
的 访问 ， 对 于 大 规模 系统 来 说 ， 需 要 协调 一 台 超 级 计算 机 中 各 个 处 理 器 之 间 的 数据 路 由 。 其 
次 ， 现 代 计 算 机 系统 所 固有 的 异步 特征 也 给 多 处 理 器 编程 带 来 了 挑战 : 在 没有 任何 警示 的 情 
形 下 ， 系 统 的 活动 可 以 被 各 种 不 同 的 事件 中 止 或 延迟 ， 例 如 中 断 、 抢 占 、cache 缺 失 和 系统 故 
障 等 。 这 种 延迟 现象 本 身 是 无 法 预测 的 ， 时 延 的 长 短 也 是 不 确定 的 :cache 缺失 可 以 造成 不 到 
十 条 指令 执行 时 间 的 时 延 ， 页 故障 可 能 造成 几 百 万 条 指令 执行 时 间 的 时 延 ， 而 操作 系统 抢占 
则 会 导致 多 达 上 亿 条 指令 执行 时 间 的 时 延 。 

本 书 从 原理 和 实践 这 两 个 互补 的 方面 盖 述 多 处 理 器 的 程序 设计 。 原 理 部 分 着 重 于 可 计算 
性 理论 : 理解 异步 并 发 环境 中 的 可 计算 问题 。 借 助 于 一 个 理想 化 的 计算 模型 ， 对 异步 并 发 环 
境 中 什么 是 可 解 的 这 一 问题 进行 了 深入 研究 。 在 这 个 模型 中 ， 多 个 并 发 线程 对 一 组 共享 对 象 
进行 操作 ， 这 些 并 发 线程 的 对 象 操作 序列 被 称 为 并 发 程序 或 并 发 算法 。 该 模型 实质 上 也 正 是 
Java“、C# 及 C++ 线程 库 中 所 采用 的 计算 模型 。 

令 人 不 可 思议 的 是 ， 的 确 存在 一 些 易于 说 明 的 共享 对 象 ， 我 们 无 法 采用 任何 并 发 算法 来 
实现 。 因 此 ， 在 编写 多 处 理 器 程序 之 前 弄 清楚 什么 问题 不 能 用 计算 机 解决 是 十 分 重要 的 。 大 
多 数 困 扰 多 处 理 器 程序 员 的 问题 都 源 自 于 计算 模型 自身 的 限制 ， 所 以 ， 对 并 发 共享 存储 器 模 
型 中 可 计算 性 理论 的 理解 是 学 习 多 处 理 器 编程 必 不 可 少 的 一 个 环节 。 书 中 与 原理 相关 的 音节 
向 读者 展现 了 各 种 各 样 的 可 计算 问题 ， 以 帮助 读者 尽快 地 了 解 异 步 可 计算 性 理论 ， 同 时 也 讲 
述 了 如 何 通过 硬件 和 软件 机 制 来 解决 这 些 问 题 。 

理解 可 计算 性 的 关键 在 于 描述 和 证 明 特 定 程序 的 实际 执行 行为 ， 更 准确 地 说 ， 即 程序 正 
确 性 问题 。 由 于 其 自身 的 特点 ， 多 处 理 器 程序 的 正确 性 比 顺序 程序 的 正确 性 更 为 复杂 ， 因 此 ， 
需要 一 系列 不 同 的 辅助 论证 工具 来 证 明 并 发 程序 的 正确 性 ， 甚 至 有 可 能 只 是 为 了 “ 非 形式 化 
地 证 明 ” 程 序 正确 性 (实际 上 程序 员 往 往 这 么 做 )。 顺 序 程序 的 正确 性 主要 关心 程序 的 名 种 安 
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全 特性 。 安 全 性 说 明了 “不 好 的 事件 ” 绝 不 会 发 生 。 例 如 ， 即 使 在 断 电 时 ， 交 通 指示 灯 也 决 
不 给 任何 方向 显示 绿灯 。 同 样 ， 并 发 程序 的 正确 性 也 需要 考虑 安全 性 ， 但 要 考虑 如 何 确保 多 
个 并 发 线程 在 各 种 可 能 的 交互 情形 下 的 安全 性 ， 这 使 问题 的 解决 变 得 难 上 加 难 。 男 外 ， 还 要 
考虑 一 个 同样 重要 的 因素 ， 并 发 程序 的 正确 性 包括 了 各 种 各 样 的 活性 特性 ， 而 这 种 特性 是 顺 
序 程序 执行 中 所 不 会 出 现 的 。 所 谓 活 性 ， 是 指 一 个 特定 的 “好 的 事件 ”一 定 会 发 生 。 例 如 ， 
红色 指示 灯 最 终 一 定 会 变 为 绿灯 。 本 书 原理 部 分 的 最 终 目 标 就 是 要 引入 一 系列 分 析 推 理 并 发 
程序 的 衡量 标准 和 方法 ， 为 接 下 来 研究 现实 对 象 和 程序 的 正确 性 黄 定 基础 。 

本 书 的 第 二 部 分 阐述 多 处 理 器 程序 设计 的 具体 实践 ， 着 重 于 并 发 程序 性 能 的 分 析 。 多 处 理 
器 并 发 算法 的 性 能 分 析 与 顺序 算法 的 性 能 分 析 在 风格 上 完全 不 同 。 顺 序 程序 设计 是 基于 一 组 易 
于 理解 且 完 备 定义 的 抽象 来 进行 的 。 编 写 顺 序 程序 时 ， 不 需要 了 解 底 层 的 详细 细 市 ， 例 如 ， 在 
硬盘 和 内 存 之 间 如 何 交换 页 面 ， 在 层次 结构 的 高 速 缓存 中 如 何 移 进 /移出 那些 较 小 的 内 存单 位 。 
这 种 复杂 的 存储 器 层次 结构 实质 上 对 程序 员 是 不 可 见 的 ， 它 被 隐藏 在 一 种 完全 的 编程 抽象 之 中 。 

然而 在 多 处 理 器 环境 下 ， 这 种 编程 抽象 被 打破 了 ， 至 少 从 性 能 角度 来 讲 应 该 这 样 做 。 为 
了 获得 足够 好 的 性 能 ， 程 序 设 计 人 员 有 时 需要 比 底层 存储 器 系统 “做 得 更 好 ”， 他 们 编写 的 程 
序 代码 可 能 让 那些 不 熟悉 多 处 理 器 系统 结构 的 人 感到 莫名 其 妙 。 或 许 某 一 天 ， 并 发 系统 结构 
会 像 今 天 的 顺序 系统 结构 一 样 支持 完全 的 抽象 ， 然 而 到 那 时 ， 程 序 设计 人 员 早 已 了 解 这 种 新 
的 系统 结构 了 。 

本 书 的 原理 部 分 讲述 了 一 组 共享 对 象 和 编程 工具 ， 着 眼 于 每 种 对 象 和 工具 自身 的 能 
并 借助 于 它们 引出 一 些 高 层次 的 问题 : 用 自 旋 锁 来 说 明 争 用 ， 用 链表 阐述 数据 结构 设计 中 锁 
的 作用 等 。 这 些 问 题 对 程序 的 性 能 都 有 着 重要 的 影响 ， 希 望 读者 能 充分 理解 它们 ， 并 能 将 所 
理解 的 内 容 应 用 于 日 后 具体 的 多 处 理 器 系统 设计 中 。 最 后 ， 通 过 讨论 诸如 事务 内 存 这 种 目前 
最 先进 的 技术 ， 作 为 本 书 的 结束 。 

下 面 简要 说 明 本 书 的 写作 风格 。 尽 管 有 很 多 合适 的 语言 可 供 选 择 ， 但 本 书 仍 采 用 了 Java 
程序 设计 语言 。 当 然 ， 有 大 量 的 理由 可 以 解释 为 何 要 做 出 这 种 选择 ， 然 而 这 样 的 话题 还 是 更 
适 于 在 闲暇 时 讨论 ! 附录 解释 了 Java 所 支持 的 一 些 概念 在 其 他 的 常用 语言 或 库 中 是 如 何 表示 
的 ， 同 时 也 介绍 了 关于 多 处 理 器 硬件 的 一 些 基 础 知识 。 纵 观 全 书 ， 我 们 尽量 避免 列 出 关于 程 
序 和 算法 性 能 的 具体 数据 ， 而 是 从 一 般 情形 来 考虑 。 这 样 做 的 理由 是 : 多 处 理 器 系统 之 间 差 
异 很 大 ， 在 一 台 机 器 上 工作 良好 的 并 发 程序 并 不 代表 在 另 一 台 机 器 上 也 有 同样 的 表现 ， 紧 密 
结合 一 般 情形 能 够 保证 本 书 所 陈述 的 结论 具有 更 加 长 久 的 有 效 性 。 

在 每 一 章 的 末尾 都 提供 了 相关 文献 的 引用 ， 读 者 可 以 根据 参考 文献 目录 找到 相应 内 容 以 
便 进一步 阅读 。 此 外 ， 每 章 都 提供 了 一 些 习 题 ， 读 者 可 以 据 此 检查 自己 对 知识 的 理解 程度 。 


1.1 共享 对 象 和 同步 


在 开始 新 工作 的 第 一 天 ， 老 板 要 求 在 一 台 能 够 支持 10 个 并 发 线程 的 并 行 机 上 编写 出 查找 
1 一 10! 之 间 素 数 的 程序 (不 要 考虑 为 什么 这 样 做 ) 。 机 器 是 按照 分 钟 租用 的 ， 程 序 运 行 时 间 越 
长 ， 花 费 也 就 越 大 。 如 果 想 给 老板 留 下 一 个 不 错 的 印象 ， 应 该 怎样 去 做 ? 

在 最 初 的 尝试 中 ， 可 能 会 为 每 个 线程 分 配 一 个 大 小 相等 的 输入 域 。 各 个 线程 分 别 找 出 10” 
个 数字 内 的 素数 ， 如 图 1-1 所 示 。 这 种 方法 可 能 会 由 于 一 个 简单 但 很 重要 的 原因 而 最 终 导 致 失 
败 ， 那 就 是 相同 大 小 的 输入 范围 并 不 意味 着 相同 的 工作 量 。 素 数 的 分 布 是 不 均匀 的 : 在 1 ~ 
10 之 间 有 很 多 素数 ， 但 分 布 在 9*10” 一 10" 的 素数 却 非常 少 。 更 为 糟糕 的 是 ， 整 个 范围 内 不 同 
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素数 的 计算 时 间 也 是 不 相同 的 : 判断 一 个 较 大 的 数 是 否 为 素数 通常 要 比 判 断 较 小 的 数 所 花费 
的 时 间 更 长 。 简 而 言 之 ， 没 有 理由 认为 这 种 方式 能 够 使 得 整个 工作 是 由 所 有 的 线程 平均 承担 
完成 的 ， 其 至 也 不 清楚 哪个 线程 承担 的 工作 最 多 。 


[1 void primePrint { | 
int i = ThreadID.get(); // thread IDs are in {0..9} 
int block = power(10, 9); 
for (int j = (i * block) + 1; j <= (i + 1)» block; j++) { 
if (isPrime(j)) 
print(j); 
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} 





图 1-1 通过 等 分 输入 域 达 到 负载 平衡 。 对 {0..9} 中 的 每 个 线程 分 配 同样 大 小 的 输入 子 集 


在 线程 间 划 分 工作 的 另 一 种 可 行 方案 就 是 为 每 个 线程 一 次 分 配 一 个 整数 (图 1-2)。 当 一 
个 线程 结束 对 该 整数 的 判断 后 ， 再 次 请 求 分 配 另 一 个 整数 。 为 此 ， 需 要 引入 一 个 共享 计数 器 
对 象 。 该 对 象 将 一 个 整 型 值 封装 起 来 ， 线 程 通过 调用 getAndIncrement( ) 方 法 对 该 整 型 值 进 
行 自 增 操作 ， 并 返回 未 被 增加 前 的 先前 值 。 
[ Counter counter = new Counter(1); // shared by all threads | 
void primePrint { 





long i = 0; 
long limit = power(10, 10); 
while (i < limit) { // loop until all numbers taken 


i = counter.getAndincrement(); // take next untaken number 
if (isPrime(i)) 
print(i); 
} 


| 
图 1-2 通过 共享 计数 器 达到 负载 平衡 。 每 个 线程 对 动态 确定 的 数字 进行 判断 

图 1-3 是 Counter 对 象 的 Java 实 现 。 该 计数 器 由 单线 程 调用 时 效果 很 好 ， 但 由 多 线程 共享 
使 用 时 却 会 出 现 错误 。 其 问题 的 根本 就 在 于 语句 

return valuet+; 
实质 上 是 下 面 几 行 代码 的 缩写 方式 : 

long temp = value; 

value = temp + 1; 

return temp; 

在 这 段 代码 中 ，value 是 对 象 Counter 的 一 个 域 ， 它 被 所 有 的 线程 所 共享 。 但 是 ， 每 个 线 
程 都 有 一 个 它 自 己 的 本 地 拷贝 temp ， 该 拷贝 是 线程 的 局 部 变量 。 

假设 线程 A4 和 线程 同时 调用 Counter 的 getAndIncrement() 方 法 。 那么 ，A 和 B 有 可 能 后 
时 从 value 中 读 入 1， 然 后 分 别 将 各 自 的 局 部 变量 temp 设 置 为 1， 再 将 value 设 置 为 2， 最 终 ，A 
和 8 都 返回 了 value 的 先前 值 1。 显 然 ， 这 种 情形 并 不 是 我 们 所 期 望 的 ， 对 计数 器 
getAndIncrement ) 方 法 的 并 发 调用 返回 了 同一 个 值 。 我 们 希望 不 同 的 线程 返回 不 同 的 值 。 
事实 上 ， 还 有 可 能 出 现 更 坏 的 情形 ， 一 个 线程 从 value 中 读 入 了 1， 在 它 将 value 置 为 2 之 前 ， 
为 一 个 线程 执行 了 多 次 增 量 循 环 ， 读 入 1 设置 为 2， 接 着 读 入 2 设置 为 3。 当 第 一 个 线程 最 终 完 
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public class Counter { 
private long value; // counter starts at one 
public Counter(int i) { // constructor initializes counter 
value = i; 


public long getAndIncrement() { // increment, returning prior value 
return value++; 





图 1-3 共享 计数 器 的 实现 


出 现 上 述 问 题 的 根本 原因 在 于 对 计数 器 值 的 增加 需要 在 共享 变量 上 执行 两 种 不 同类 型 的 
操作 : 将 value 的 值 读 入 temp 变 量 ， 并 将 temp 的 值 写 入 Counter 对 象 。 

类 似 的 情形 在 现实 生活 中 同样 也 会 出 现 。 当 在 走廊 中 行走 时 ， 需 要 躲 过 向 你 迎面 走 来 的 
人 。 你 可 能 发 现 那 一 瞬间 自己 一 会 儿 向 右 ,一 会 儿 向 左 ， 这 么 来 回 好 几 次 ， 因 为 另 一 个 人 也 
在 试图 这 么 做 以 避免 与 你 碰撞 。 有 了 时 成 功 避 开 了 ， 但 有 时 还 是 撞 上 了 。 实 际 上 ， 正 如 在 后 面 
的 章节 中 将 要 讲述 的 那样 ， 这 种 碰撞 在 很 多 时 候 是 无 法 避免 的 。 直观 上 来 看 ， 你 和 向 你 迎 
面 走 来 的 人 都 在 做 两 件 事 : 观察 (“ 读 ”) 对 方 当前 的 位 置 ， 然 后 移 向 (“ 写 ”) 另 一 边 。 然 而 
问题 是 ， 当 你 在 读 对 方 的 位 置 时 ， 无 法 知道 他 下 一 秒 是 继续 待 着 还 是 移动 躲闪 。 你 和 对 面 的 
这 个 陌生 人 必须 决定 谁 从 左边 走 谁 从 右边 走 。 同 样 ， 共 享 计数 器 的 各 个 线程 也 需要 决定 谁 先 
使 用 谁 后 使 用 。 

在 第 5 章 将 会 看 到 ， 现 代 的 多 处 理 器 硬件 通常 都 提供 了 特殊 的 读 一 改 一 写 指 令 ， 人 允许 线程 
以 原子 的 硬件 操作 来 读 、 写 或 修改 存储 器 的 值 。 对 于 上 述 的 Counter 对 象 ， 可 以 采用 这 种 硬件 
方式 原子 地 完成 计数 器 值 的 自 增 。 

同样 ， 通 过 在 软件 〈 只 使 用 读 、 写 指令 ) 中 保证 一 个 时 刻 只 有 一 个 线程 在 执行 读 / 写 操 作 
序列 ， 也 可 以 获得 这 种 原子 的 行为 效果 。 这 种 确保 一 个 时 刻 只 允许 一 个 线程 执行 特定 代码 段 
的 问题 称 为 互 斥 问题 ， 它 是 多 处 理 器 程序 设计 中 经 典 的 协作 问题 之 一 。 

在 实际 编程 中 并 不 需要 由 自己 来 设计 互 斥 算法 (而 是 调用 库 )。 但 是 , 深入 地 理解 互 斥 算 
法 的 实现 是 从 全 局 上 掌握 并 发 计算 的 基础 。 同 样 ， 对 于 死 锁 、 有 界 公平 性 、 不 同 于 非 阻 塞 方 
式 的 阻塞 同步 等 这 些 普遍 但 很 重要 问题 的 具体 解决 方法 ， 也 需要 进行 深入 的 研究 。 


1.2 生活 实例 


并 发 协作 问题 NER) 应 该 当 作 实 际 的 具体 问题 来 处 理 ， 而 不 应 看 作 是 一 种 编程 训练 。 
本 市 通过 一 些 现 实生 活 实例 阐述 基本 的 并 发 问题 。 像 大 多 数 讲述 这 些 实例 的 其 他 作者 一 样 ， 
我 们 也 是 在 原 有 的 情节 上 重 述 这 些 故事 〈 见 本 章 末尾 的 注释 ) 。 

Alice 和 Bob 是 一 对 邻居 ， 他 们 共用 一 个 院子 。Alice 养 了 一 只 猫 而 Bob 养 了 一 只 小 狗 。 这 
两 只 小 宠物 都 喜欢 在 院子 里 跑 来 跑 去 ， 然 而 (自然 地 ) 它们 总 是 不 能 融洽 地 相处 。 在 发 生 了 
一 些 不 愉快 的 事情 后 ，Alice 和 Bob 决 定 采取 措施 ， 让 两 只 小 宠物 不 同时 出 现在 院子 里 。 显 然 ， 
应 该 排除 不 许 任 一 只 动物 待 在 院子 里 的 做 法 。 

应 该 怎样 去 做 呢 ? Alice 和 Bob 先 要 约定 一 种 相互 都 可 以 接受 的 过 程 以 决定 他 们 该 做 什么 。 


日 ”无 法 使 用 类 似 “总 是 靠 右 行 ” 这 种 预防 性 的 措施 ， 因 为 对 方 有 可 能 是 英国 人 。 
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这 种 约定 称 为 协作 协议 (简称 协议 )。 
由 于 院子 很 大 ，Alice 无 法 从 窗户 观察 到 Bob 的 小 狗 是 不 是 在 院子 里 。 当 然 ， 她 可 以 到 Bob 
家 敲 门 进去 看 看 ， 但 这 太 浪 费时 间 ， 况 且 下 雨 怎么 办 呢 ?Alice 也 可 以 站 在 窗户 边 冲 着 Bob 的 
屋子 大 声 喊 叫 : “Bob! 我 的 猫 可 以 出 来 了 吗 ? ”然而 ， 问 题 是 Bob 有 可 能 听 不 见 ， 他 或 许 在 
看 电视 ， 或 许 在 招待 他 的 女 朋友 ， 也 可 能 出 去 买 狗 食 了 。 他 们 两 人 同样 也 可 以 尝试 通电 话 ， 
但 也 会 出 现 问 题 ， 例 如 Bob 正 在 洗澡 或 给 电话 换 电 池 等 。 
于 是 ，Alice 想 出 了 一 个 好 主意 。 她 在 Bob 家 的 窗台 上 放 了 几 个 空 啤酒 久 (如 图 1-4 所 示 )， 
用 绳子 将 它们 一 个 个 地 绑 起 来 ， 并 将 绳子 的 一 端 系 在 自己 的 屋子 里 。Bob 也 按照 同样 的 方法 在 
Alice 家 的 窗台 上 安放 啤酒 负 。 当 Alice 想 给 Bob 发 出 信号 时 ， 则 猛 拉 绳子 打 翻 其 中 一 个 啤酒 缸 。 
若 Bob 发 现 一 个 啤酒 缸 被 打 翻 ， 则 重新 摆好 它 。 [6] 
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1 Fe MSPS ES EUR, BEEK. [AIRE ZE-F Alice FRE EBObIN ATS ELBE 
WARMER, BRAK, WAATA A HOMME. BIE Bob RE Ke Hb HIE MEET a 
POMPE, RT, — Hf 2 2k Bb REREAD? 只 要 是 指望 由 Bob 来 扶正 啤酒 链 ， 那 么 
Alice FERS FASE At A AS He 

Alice 和 Bob 于 是 又 尝试 使 用 另外 一 种 方法 。 他 俩 各 自在 对 方 很 容易 看 到 的 地 方 怪 起 一 个 
旗杆 。 如 果 Alice 想 让 她 的 猫 去 院子 里 活动 ， 则 按 以 下 步骤 进行 处 理 : 

1. 升 起 她 自己 的 旗子 。 

2. 若 Bob 的 旗子 是 降下 来 的 ， 则 将 她 的 猫 放出 去 。 

3. 当 猫 返回 屋子 时 ， 将 她 自己 的 旗子 降下 。 

Bob 的 操作 则 相对 复杂 一 些 。 

1. 升 起 他 自己 的 旗子 。 

2. 若 Alice 的 旗子 处 于 升 起 状态 ， 则 重复 执行 下 列 操作 ， 

a) 降下 他 自己 的 旗子 。 
b) 等 待 直 到 Alice 的 旗子 被 降下 。 
c) 重新 升 起 他 自己 的 旗子 。 

3. 只 要 Bob 升 起 了 自己 的 旗子 并 且 发 现 Alice 的 旗子 是 降下 来 的 ， 就 可 以 将 自己 的 小 狗 放 
出 去 。 

4. 当 小 狗 返 回 屋子 里 时 ，Bob 则 降下 他 自己 的 旗子 。 

下 面 进一步 地 研究 这 个 用 于 解决 Alice 一 Bob 问 题 的 协议 。 从 直观 上 来 看 ， 该 协议 之 所 以 能 
够 正常 地 工作 是 由 于 下 面 的 旗子 原则 。 如 果 Alice 和 Bob 都 

1. 升 起 自己 的 旗子 ， 然 后 
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2. 观察 对 方 的 旗子 ， 
那么 ， 至 少 有 一 个 人 会 看 到 对 方 的 旗子 是 升 起 的 (显然 ， 最 后 一 个 观察 的 人 会 看 到 对 方 的 旗 
子 是 升 起 的 )， 这 样 的 话 ，Alice 和 Bob 中 的 一 个 人 不 会 让 自己 的 宠物 进入 院子 。 然 而 ， 采 用 这 
种 观察 方法 并 不 能 证 明 在 院子 里 决 不 会 同时 出 现 两 只 宠物 。 例 如 ， 当 Bob 正 在 观察 Alice 的 族 
子 时 ， 如 果 Alice 让 她 的 猫 多 次 地 进出 院子 ， 那 么 会 出 现 什么 样 的 情形 呢 ? 

为 了 说 明 两 只 宠物 决 不 会 同时 出 现在 院子 里 ， 我 们 采用 反 证 法 来 证 明 。 假 设 存 在 一 种 方 
法 能 使 得 两 只 宠物 同时 出 现在 院子 里 。 现 在 考虑 Alice 和 Bob 分 别 升 起 了 自己 的 旗子 ， 并 准备 
让 各 自 的 宠物 进入 院子 之 前 最 后 观察 对 方 旗 子 这 一 时 刻 。 当 Alice 观 察 对 方 的 旗子 时 自己 的 族 
子 已 经 完全 升 起 来 了 ， 而 且 她 肯定 没有 看 到 Bob 的 旗子 ， 否 则 她 不 会 让 自己 的 猫 到 院子 里 去 。 
所 以 ， 在 Alice 开 始 观察 的 瞬间 ，Bob 肯 定 还 没有 完全 把 旗子 升 起 来 。 由 此 推出 当 Bob 升 起 自己 
的 旗子 并 最 后 观察 Alice 的 旗子 时 ，Alice 必 定 已 经 查看 过 Bob 的 旗子 ， 所 以 Bob 肯 定 会 看 到 
Alice 的 旗子 已 被 升 起 ， 于 是 他 不 会 将 自己 的 小 狗 放 出 去 ， 这 与 假设 矛盾 。 

这 种 反 证 的 论证 方法 今后 将 会 被 经 常 使 用 ， 因 此 要 仔细 地 推荐 为 什么 上 述 断 言 成 立 。 有 
一 点 需要 注意 ， 我 们 从 未 假定 “ 升 起 自己 的 旗子 ”及 “观察 对 方 的 旗子 ”这 种 行为 是 瞬间 发 
生 的 ， 也 没有 假定 这 种 动作 会 持续 多 久 。 我 们 只 关心 这 些 动作 何 时 开始 或 者 何 时 结束 。 
1.2.1 互 斥 特性 

为 了 证 明 旗 子 协议 能 够 正确 地 解决 Alice-Bob 问 题 ， 首 先 必 须 理解 正确 的 解决 方案 应 该 满 
足 什 么 样 的 特性 ， 然 后 再 证 明 旅 子 协议 能 保证 这 些 特性 成 立 。 

前 面 已 证 明 两 个 宠物 不 会 同时 竺 在 院子 里 ， 这 种 特性 称 为 互 斥 。 

然而 ， 互 斥 只 是 所 需 的 特性 之 一 。 如 前 面 所 提 到 的 ，Alice 和 Bob 都 不 允许 自己 的 宠物 进 
入 院子 这 样 的 协议 也 满足 互 斥 特性 ， 但 对 于 他 们 的 宠物 来 说 这 种 协议 却 是 不 可 接受 的 。 下 面 
分 析 另 外 一 种 重要 特性 。 如 果 一 个 宠物 想 进 入 院子 ， 则 最 终 必 会 成 功 ， 如 果 两 个 宠物 同时 都 
想 进 入 院子 ， 则 至 少 有 一 个 能 够 成 功 。 这 种 特性 称 为 无 元 锁 ， 它 是 解决 Alice 一 Bob 问 题 的 基本 
特性 。 

可 以 断定 上 述 Alice 一 Bob 协 议 是 无 死 锁 的 。 假 设 两 个 宠物 都 想 进 入 院子 ， 于 是 Alice 和 Bob 
各 自 升 起 自己 的 旗子 ，Bob 最 终 总 会 发 现 Alice 的 旗子 是 升 起 的 ， 则 会 降下 旗子 暂缓 自己 的 请 
求 ， 从 而 让 Alice 的 猫 进入 院子 。 

无 饥饿 (或 无 封锁 ) 特性 是 一 种 必须 关注 的 特性 : 如 果 一 个 宠物 想 进 入 院子 ， 它 最 终 能 
够 成 功 吗 ? 对 此 ，Alice-Bob 协 议 并 不 能 完全 保证 。 每 当 Alice 和 Bob 发 生 冲 突 时 ，Bob 都 必须 
届 从 Alice 而 暂缓 自己 的 请 求 ， 因 此 ， 有 可 能 出 现 这 样 的 情形 : Alice 的 猫 一 次 又 一 次 地 进入 院 
子 ， 而 Bob 的 小 狗 则 一 直 窝 在 屋子 里 变 得 越 来 越 焦躁 。 稍 后 ， 我 们 将 会 看 到 如 何 通过 协议 防止 
出 现 这 种 饥饿 现象 。 

最 后 一 种 需要 关注 的 特性 就 是 等 待 。 假 设 Alice 升 起 自己 的 旗子 ， 随 后 突 发 阑尾 炎 ， 于 是 
她 〈 带 着 她 的 猫 ) 去 了 医院 。 手 术 成 功 之 后 ， 留 院 观察 一 周 。 虽 然 Bob 为 Alice 的 病情 得 以 好 
转 而 松 了 一 口气 ， 但 在 Alice 离 开 家 里 的 这 段 日 子 里 ，Bob 的 小 狗 无 法 进入 院子 。 问 题 的 根源 
就 在 于 协议 中 规定 Bob 必 须 等 待 Alice 把 旗子 降下 后 才能 把 自己 的 小 狗 放 出 去 。 如 果 Alice 被 耽 
误 了 (即便 理由 是 好 的 ) ，Bob 也 会 被 延迟 (没有 什么 理由 )。 

等 待 问 题 在 容错 中 是 非常 重要 的 。 通 常情 况 下 ， 和 希望 在 一 段 合理 的 时 间 内 ，Alice 和 Bob 
都 能 够 及 时 地 响应 对 方 ， 但 如 果 没 有 及 时 响应 该 怎么 办 ? 互 斥 的 本 质 就 是 等 待 : 无 论 一 个 互 
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斥 协 议 设计 得 多 么 巧妙 ， 都 无 法 避免 等 待 。 然 而 ， 大 多 数 其 他 的 协作 问题 无 需 等 待 就 可 以 解 
决 ， 有 时 其 至 采用 一 些 出 平 预 料 的 方法 。 


1.2.2 道德 


上 面 分 析 了 Bob-Alice 协 议 的 优 缺 点 ， 现 在 回 到 计算 机 科学 上 来 。 

首先 来 看 看 隔 着 院子 喊叫 和 打 电 话 的 方式 为 什么 不 行 。 通 常 ， 并 发 系统 中 存在 两 种 类 型 
的 通信 : 

© 皮 时 通信 要 求 通信 双方 在 同一 时 间 都 参与 通信 。 喊 叫 、 打 手势 或 者 通电 话 都 是 瞬时 通信 。 

* 持续 通信 人 允许 发 送 者 和 接收 者 在 不 同时 间 参 与 通信 。 写 信 、 发 邮件 或 在 石 块 上 留言 都 是 

持续 通信 。 

互 斥 需要 的 是 持续 通信 。 隔 着 院子 喊叫 或 打 电 话 方式 的 问题 就 在 于 ， 此 时 无 法 确定 是 否 
让 Bob 将 小 狗 放 出 去 ， 如 果 Alice 不 能 给 予 回复 ，Bob 将 永远 不 知道 该 怎么 做 。 

啤酒 缸 一 绳子 协议 似乎 有 些 夸张 , 但 它 却 完全 符合 并 发 系统 中 常用 的 一 种 通信 协议 : 中 断 。 
现代 操作 系统 中 ， 一 个 线程 要 引起 另 一 个 线程 注意 的 常用 方法 就 是 发 送 中 断 信 号 。 更 准确 地 
说 ， 线 程 A 通过 设置 一 个 位 向 线程 B 发 出 一 个 中 断 信号 ， 线 程 B 周 期 地 检查 这 个 位 。 一 旦 B 检 测 
到 该 位 被 设置 ， 则 做 出 相应 的 响应 。 响 应 结束 后 ， 通 常 由 B 进 行 复 位 (A 不 能 复位 )。 虽 然 中 
断 不 能 解决 互 斥 问题 ， 但 它 仍 是 非常 有 用 的 。 例 如 ，Java 中 wait() 调 用 和 notifyA11() 调 用 的 
本 质 就 是 中 断 。 

从 更 积极 的 角度 来 看 ， 这 个 故事 揭示 了 这 样 一 个 事实 : 两 个 线程 之 间 的 互 斥 问题 能 够 通 
过 两 个 1 比特 变量 来 解决 (尽管 不 完善 ) ， 每 个 变量 只 能 被 一 个 线程 号， 而 由 另 一 个 线程 读 。 


1.3 生产 者 -消费 者 问题 


互 斥 并 不 是 唯一 需要 关注 的 问题 。 故 事 的 后 来 ，Alice 和 Bob 相 爱 并 且 结 了 婚 。 最 终 ， 他 
们 又 离 了 婚 。( 他 们 在 想 些 什么 ? ) 法 官 将 宠物 的 监管 权 判 给 了 Alice， 而 让 Bob 负 责 喂养 它们 。 
现在 两 只 小 宠物 相处 得 十 分 融洽 ， 但 它们 只 和 Alice 亲 近 ， 每 当 看 到 Bob 就 会 上 前 攻击 他 。 于 
是 ，Alice 和 Bob 需 要 设计 另外 一 个 协议 ， 允 许 Bob 在 他 和 宠物 不 同时 在 院子 里 的 情况 下 给 它们 
喂食 物 。 更 进一步 ， 该 协议 还 要 能 保证 不 浪费 双方 的 时 间 : 在 院子 里 没有 食物 的 情况 下 ， 
Alice 不 会 将 宠物 放出 去 ， 而 在 食物 未 被 吃 完 前 ，Bob 也 不 愿 再 次 进入 院子 放置 食物 。 这 种 问 
题 称 为 生产 者 一 消费 者 问题 。 

有 趣 的 是 ， 解 决 互 斥 问题 时 被 放弃 的 啤酒 久 -- 绳 子 协议 在 解决 生产 者 -消费 者 问题 时 却 非 
常 有 用 。Bob 在 Alice 的 窗台 上 竖 直 摆 放 了 一 个 啤酒 钾 ， 并 用 绳子 的 一 端 将 其 绑 住 ， 而 把 绳子 
的 另 一 端 牵 进 自己 的 房间 。 接 着 ， 他 把 食物 放 到 院子 里 ， 拉 动 绳子 将 啤酒 饶 打 翻 。 此 后 ， 当 
Alice 要 把 宠物 放 入 院子 时 ， 她 按照 以 下 步骤 进行 

1. 等 待 直到 啤酒 钠 被 打 翻 。 

2. 将 宠物 放出 去 。 

3. 当 宠 物 返 回 屋子 以 后 ， 检 查 它们 是 否 吃 完了 院子 里 的 食物 。 如 果 吃 完了 ， 则 重新 将 翻 
倒 的 啤酒 饶 摆 正 。 

Bob 的 步骤 如 下 : 

1. 等 待 直到 发 现 啤酒 镀 被 重新 摆 正 。 

2. 将 食物 放 到 院子 里 。 
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3. PRET, ERE AE 

啤酒 饶 的 状态 实质 上 反映 了 院子 里 的 状态 。 如 果 啤 酒 镀 是 翻 倒 的 ， 则 意味 着 院子 里 有 食 
物 且 宠 物 可 以 进去 吃 ， 如 果 啤 酒 镶 是 竖 直 放 好 的 ， 则 表示 食物 已 经 被 吃 完 且 Bob 可 以 再 放 些 食 
物 。 现 在 ， 考 察 下 面 三 种 特性 : 

ZF: Bob 和 宠物 决 不 会 同时 出 现在 院子 里 。 

e ALA: 如 果 Bob 始 终 愿 意 投放 食物 ， 而 两 只 小 宠物 总 是 很 饿 ， 那 么 两 只 小 宠物 将 能 


永远 不 停 地 吃 到 食物 。 
。 生 产 者 -消费 者 : 除非 院子 里 有 食物 ， 否 则 宠物 不 会 进入 院子 ， 除 非 院子 里 的 食物 已 被 
Lio] 吃 完 ， 否 则 Bob 不 会 继续 投放 更 多 的 食物 。 


此 处 的 生产 者 一 消费 者 协议 以 及 上 一 节 的 互 斥 协议 都 能 够 保证 Alice 和 Bob 决 不 会 同时 出 现 
在 院子 里 。 然 而 ， 不 能 使 用 这 个 生产 者 一 消费 者 协议 来 保证 Alice 和 Bob 的 互 斥 ， 理 解 这 一 点 非 
常 重要 。 互 斥 要 求 无 死 锁 : 任何 一 方 就 其 自身 而 言 ， 都 能 够 无 限 次 地 进入 院子 ， 即 使 另 一 方 
不 在 场 的 情形 下 也 是 如 此 。 与 此 相反 ， 生 产 者 一 消费 者 协议 的 无 饥饿 特性 却 假设 双方 保持 连续 
的 协同 操作 。 

下 面 对 该 协议 进行 分 析 : 

“ 互 斥 : 这 里 采用 一 种 与 前 面 的 互 不 证 明 稍 有 区 别 的 证 明 方 法 : 基于 “状态 机 ”而 不 是 反 

证 法 来 证 明 。 我 们 将 系 着 绳子 的 啤酒 缸 视 为 一 个 状态 机 。 啤 酒 缸 具有 两 个 状态 : 竖 直 和 

翻 倒 ， 并且 在 这 两 个 状态 之 间 反 复 地 转换 。 现 在 需要 证 明 ， 因 为 自动 机 的 初始 状态 满足 

互 扩 特性， 并且 从 任意 一 个 状态 向 另 一 个 状态 的 转换 也 保持 着 互 斥 特性 ， 所 以 该 协议 满 

足 互 斥 特性 。 

初始 状态 下 啤酒 龟 只 能 是 竖 直 或 者 翻 倒 的 。 现 假设 它 为 翻 倒 的 ， 则 只 有 完 物 能 够 进 

入 院子 ， 故 此 时 满足 互 斥 特性 。 若 Alice 要 皖 正 啤酒 饶 ， 宠 物 首 先 必 须 离开 院子 ， 因 此 ， 

当 啤 酒 饶 被 摆 正 的 时 候 宠物 不 在 院子 里 ， 又 因为 在 啤酒 饶 再 次 被 打 翻 之 前 宠物 不 会 进入 

院子 ， 所 以 自动 机 从 翻 倒 状态 转换 为 紧 直 状态 时 保持 互 斥 特 性。 若 要 打 翻 啤酒 缸 ，Bob 

必定 已 经 离开 了 院子 ， 并 且 在 啤酒 饶 再 次 被 摆 正 之 前 不 会 进入 院子 ， 因 此 从 竖 直 状态 转 

换 为 翻 倒 状 态 自动 机 也 保持 着 互 斥 特性 。 此 外 ， 不 再 存在 其 他 可 能 的 转换 过 程 了 ， 因 此 

断言 成 立 。 

AIR: 假设 此 断言 不 成 立 ， 那 么 必然 存在 以 下 情形 : Alice 的 宠物 由 于 没有 食物 而 一 

直 处 于 饥饿 状态 ，Bob 试 图 投放 食物 但 不 能 获得 成 功 。 此 时 ， 啤 酒 把 不 可 能 是 竖 直 的 ， 

因为 这 时 Bob 想 给 宠物 提供 食物 并 打 翻 了 啤酒 把 。 那 么 ， 啤 酒 久 必定 是 翻 倒 的 ， 又 因为 

EAER, Alicek “APA IEM HE, SHIRA. 

“生产 者 一 消费 者 : 互 斥 特性 意味 着 宠物 和 Bob 不 会 同时 在 院子 里 出 现 。 在 Alice 没 有 摆 正 

啤酒 饶 之 前 Bob 不 会 进入 院子 ， 而 只 有 在 院子 里 没有 食物 时 Alice 才 会 去 摆 正 啤酒 负 。 同 

样 ， 在 Bob 没 有 打 翻 啤酒 龟 之 前 宠物 不 会 进入 院子 ,而 只 有 在 Bob 放 置 了 食物 以 后 他 才 

ATTRAE, 

与 前 面 已 经 讲 过 的 互 斥 协议 一 样 ， 该 协议 存在 着 等 待 。 若 Bob 在 院子 里 放置 食物 后 忘记 了 
打 翻 啤酒 钠 并 马上 度假 去 了 ， 那 么 此 时 院子 里 虽然 有 食物 ， 但 宠物 却 是 饥饿 的 。 

现在 把 注意 力 转 回 到 计算 机 科学 上 来 ， 几 乎 所 有 的 并 行 分 布 式 系统 都 会 出 现 生 产 者 一 消费 
者 问题 。 它 是 各 个 处 理 器 向 通信 缓冲 区 中 放置 数据 ， 由 其 他 处 理 器 读 取 或 者 通过 互联 网 络 或 

共享 总 线 进 行 传递 的 方式 。 
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1.4 读者 - 写 者 问题 


Bob 和 Alice 都 十 分 喜爱 自己 的 宠物 ， 于 是 决定 彼此 之 间 交 流 一 些 与 宠物 相关 的 信息 。Bob 
在 屋子 前 面 紧 起 了 一 块 公告 牌 。 公 告 牌 上 可 以 粘贴 一 串 很 大 的 次 片 ， 每 个 次 片 上 只 能 写 下 
个 字母 。 空 闪 的 时 候 ，Bob 采 用 一 次 贴 上 一 块 次 片 的 方式 ， 通 过 公告 牌 传递 信息 。Alice 一 有 
空 就 用 望远镜 看 Bob 在 公告 牌 上 留 的 信息 ， 一 次 也 只 读 一 块 次 片上 的 内 容 。 

这 种 方法 听 起 来 似乎 是 一 种 可 行 的 方案 ， 其 实 不 然 。 我 们 来 分 析 这 样 的 场景 : 假设 Bob 传 
递 了 信息 : 

sel] the cat 

Alice 通 过 望远镜 卷 抄 到 

sell the 

恰恰 此 刻 ，Bob 取 下 了 所 有 的 次 片 又 全 部 写 上 新 信息 : 

wash the dog 

Alice 接 着 继续 扫描 公告 牌 ， 最 后 卷 抄 到 信息 

sell the dog 

结果 可 想 而 知 。 

还 有 其 他 一 些 简单 明了 的 方法 可 以 解决 读者 一 写 者 问题 。 

。Alice 和 Bob 可 以 利用 互 斥 协议 来 确保 Alice 只 能 读 到 完整 的 语句 。 然 而 ， 她 可 能 漏 掉 某 个 

语句 。 

。 他 们 可 以 使 用 啤酒 缸 - 绳 子 协议 ，Bob 生 产 语句 而 Alice 消 费 语句 。 

如 果 问 题 这 么 容易 解决 ， 为 什么 还 特意 拿 出 来 讲 呢 ? 互 斥 协议 和 生产 者 -消费 者 协议 都 要 
RF: 如 果 参 与 者 一 方 由 于 某 个 不 能 预测 的 事情 延误 了 ， 另 一 方 也 必然 被 延误 。 在 多 处 理 
器 共享 存储 器 方式 下 ， 解 决 读者 一 写 者 问题 的 一 种 可 行 方法 就 是 让 每 个 线程 能 够 获得 多 个 存储 
单元 的 瞬间 视图 。 也 就 是 说 无 需 等 待 就 可 以 获得 这 样 的 视图 ， 或 者 说 当 这 些 存储 单元 的 内 容 
正 被 读 取 时 ， 无 需 防止 其 他 的 线程 修改 它们 。 这 种 方法 在 备份 、 调 试 以 及 其 他 一 些 场合 是 十 
分 有 用 的 。 令 人 惊讶 的 是 ， 的 确 存在 着 这 种 无 等 待 的 办 法 可 以 解决 读者 一 写 者 问题 。 后 面 将 会 
看 到 几 个 这 样 的 例子 。 


1.5 并 行 的 困境 


现在 来 看 看 为 什么 多 处 理 器 编程 富有 趣味 性 。 理 想 情 形 下 ， 从 单 处 理 器 升级 到 nn 路 关联 多 处 
理 器 应 该 提高 了 n 们 的 计算 能 力 。 遗 憾 的 是 ， 实 际 中 不 可 能 做 到 这 一 点 ， 其 主要 原因 就 在 于 现 
实 世 界 中 的 大 多 数 计算 问题 在 不 考虑 处 理 器 之 间 通 信和 协作 开销 的 情况 下 无 法 有 效 地 并 行 化 。 

假设 有 5 个 朋友 要 粉刷 一 套 有 5 个 房间 的 房屋 。 如 果 所 有 房间 大 小 都 一 样 ， 那 么 可 以 指定 
每 人 负责 一 间 ， 只 要 这 5 个 人 以 同样 的 速度 来 粉刷 ， 就 能 获得 相当 于 由 一 个 人 完成 整个 粉刷 工 
作 5 倍 的 加 速 比 。 如 果 每 个 房间 的 大 小 不 一 ， 问 题 就 复杂 多 了 。 例 如 ， 若 有 一 个 房间 是 其 他 房 
间 的 2 倍 ， 那 么 这 5 个 人 同时 工作 就 不 可 能 获得 5 倍 的 加 速 比 ， 因 为 整个 任务 的 完成 时 间 取决 于 
粉刷 时 间 最 长 的 那个 房间 。 

这 样 的 分 析 对 并 发 计算 非常 重要 ， 可 以 用 Amdahl 定 律 进行 解释 。 该 定律 揭示 了 这 样 一 个 
概念 : 完成 复杂 工作 (不 只 是 粉刷 房子 ) 可 获得 的 加 速 比 是 有 限 的 ， 受 限于 这 个 工作 中 必须 
被 串 行 执 行 的 部 分 。 

工作 的 加 速 比 $ 定 义 为 由 一 个 处 理 器 来 完成 一 项 工作 的 时 间 (用 挂钟 时 间 来 计算 ) 与 采用 
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n 个 处 理 器 并 发 完成 该 工作 的 时 间 之 比 。Amdahl 定 律 给 出 了 用 n 个 处 理 器 协同 完成 一 个 应 用 时 
可 获得 的 最 大 加 速 比 5,， 其 中 p 是 该 应 用 中 可 以 并 行 执行 的 部 分 。 为 简单 起 见 ， 假 设 由 一 个 处 
理 器 完成 整个 应 用 需 用 1 个 单位 的 上 时间。 使 用 n 个 处 理 器 并 发 执行 应 用 中 的 并 行 部 分 需 用 时 p/n， 
应 用 中 串 行 部 分 的 执行 时 间 为 1-P。 因 此 ， 并 行 化 以 后 的 计算 时 间 为 ; 

1—p+p/n 
按照 Amdahl 定 律 所 给 出 的 加 速 比 定义 ， 得 到 

S=1/(—p+p/n) 

我 们 仍 采 用 粉刷 房屋 的 例子 来 解释 Amdahl 定 律 的 含义 。 假 定 每 个 小 房间 是 1 个 单位 ， 唯 一 的 
大 房间 是 2 个 单位 。 每 个 房间 指定 一 个 人 (处理 器 ) 粉刷 意味 着 6 个 单位 中 的 5 个 可 以 并 行 粉刷 ， 
即 p=5/6，1 一 p= 1/6。 由 Amdahl 定 律 可 得 加 速 比 为 


S=1/(1—p+p/n)=1/(1/6+1/6)=3 
由 此 可 知 ， 若 有 一 间 房 间 的 大 小 是 其 他 房间 的 2 倍 ， 那 么 5 个 人 同时 粉刷 房屋 的 加 速 比 仅 仅 是 
一 个 人 粉刷 的 3 倍 。 
如 果 由 10 个 人 分 别 粉刷 10 间 房间 ， 其 中 一 间 房 间 是 其 他 房间 的 2 倍 ， 情 况 将 变 得 更 糟 。 下 
面 是 所 求 出 的 加 速 比 : 


S=1/(/11 + 1/11) =5.5 


可 以 看 出 ， 仅 仅 微小 的 失衡 就 使 10 个 人 粉刷 房屋 只 能 获得 5 倍 多 的 加 速 比 ， 几 乎 是 预期 值 的 
一 半 。 

因此 ， 可 以 使 用 类 似 于 前 面 素数 打印 中 所 采用 的 方案 : 一 旦 某 个 人 完成 了 自己 的 工作 ， 
他 就 马上 帮助 其 他 人 完成 剩余 的 工作 。 然 而 ， 这 种 共享 式 粉 刷 所 存在 的 问题 就 在 于 粉刷 者 之 
间 需 要 协调 合作 ， 那 么 是 否 可 以 设法 避免 这 种 协调 问题 呢 ? 

下 面 分 析 Amdahl 定 律 所 揭示 的 多 处 理 器 利用 率 问题 。 有 些 计算 问题 是 可 以 “密集 并 行 ” 
的 : 那些 易于 划分 为 多 个 可 并 发 执行 部 分 的 计算 。 这 种 问题 有 时 会 在 科学 计算 或 图 像 处 理 中 
出 现 , 但 在 系统 中 却 很 少 出 现 。 通 常情 况 下 ， 对 于 一 个 给 定 的 问题 以 及 一 台 具 有 10 个 处 理 器 
的 机 器 ， 由 Amdahl 定 律 可 知 ， 即 使 其 中 的 90% 可 以 并 行 ， 而 仅 有 10% 需 要 品行 ,最终 也 只 能 
获得 5 倍 的 加 速 比 ， 而 不 是 10 倍 。 也 就 是 说 ， 串 行 执行 的 10 多 使 得 机 器 的 利用 率 降 低 了 一 半 。 
由 此 可 见 ， 应 该 尽量 使 那 10% 的 部 分 达到 最 大 程度 的 并 行 ， 当 然 ， 这 一 点 实现 起 来 非常 困难 ， 
其 难点 就 在 于 新 增 的 并 行 部 分 中 往往 涉及 通信 和 协作 。 本 书 的 重点 就 是 : 理解 和 掌握 对 程序 
代码 中 那些 需要 同步 和 协作 的 部 分 进行 高 效 编程 的 技术 和 工具 ， 这 部 分 代码 的 改进 将 对 系统 
性 能 产生 很 大 的 影响 。 

我 们 回顾 图 1-2 所 示 的 素数 打印 问题 ， 分 析 其 中 三 行 主要 代码 : 

i = counter.getAndIncrement(); // take next untaken number 

if (isPrime(i)) 

print(i); 

如 有 果 线 程 将 这 三 行 代码 作为 一 个 原子 单位 来 执行 ， 也 就 是 将 它们 放 入 一 个 互 斥 域内 ， 那 
么 问题 的 解决 非常 简单 。 然 而 ， 现 在 只 让 getAndIncrement( ) 调 用 为 原子 的 。 这 样 的 实现 符 
合 Amdahl 定 律 : 应 最 小 化 串 行 代码 的 粒度 ， 即 只 采用 互 斥 方式 执行 getAndIncrement( )。 此 
外 ， 由 于 围绕 着 该 可 共享 的 互 斥 计数 器 的 通信 和 协作 本 质 上 也 会 影响 整个 程序 的 性 能 ， 因 此 

互 斥 机 制 的 高 效率 实现 也 是 很 重要 的 。 
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1.6 并 行程 序 设计 

对 于 大 多 数 意 欲 被 并 行 化 的 应 用 ， 很 容易 就 可 以 发 现 其 中 的 许多 部 分 能 够 并 行 执行 ， 其 
原因 在 于 这 些 部 分 之 间 不 需要 任何 通信 和 协作 。 在 写 这 本 书 的 时 候 ， 还 没有 专门 讲述 如 何 辨 
别 应 用 中 可 并 行 部 分 的 指导 大 全 。 这 种 辨别 技术 要 用 到 设计 人 员 实际 积累 的 关于 并 行 划 分 的 
知识 。 但 幸运 的 是 ， 大 多 数 情况 下 应 用 的 可 并 行 部 分 是 显而易见 的 。 然 而 ， 本 书 阐述 另外 一 
个 更 为 本 质 的 问题 ， 这 就 是 如 何 处 理 余下 的 那 部 分 不 可 并 行 的 程序 。 前 述 已 知 ， 由 于 程序 需 
要 存 取 共 享 数据 以 及 在 处 理 器 之 间 进 行 通信 和 协作 ， 所 以 剩 下 的 部 分 很 难 被 并 行 化 。 

本 书 的 目的 就 是 向 读者 揭示 现代 协作 范例 和 并 发 数据 结构 中 所 隐藏 的 核心 思想 。 从 基本 
的 原理 到 最 优 的 实用 技术 ， 统 一 、 全 面 地 介绍 了 高 效 多 处 理 器 编程 的 关键 要 素 。 

多 处 理 器 编程 面临 着 许多 挑战 ， 大 到 智能 化 问题 小 到 微妙 的 工程 技巧 。 我 们 采用 逐步 求 精 的 
方法 来 解决 这 些 问题 ， 先 从 理想 化 的 数学 模型 开始 ， 逐 层 细 化 到 考虑 工程 设计 原理 的 实际 模型 。 

例如 ， 对 于 最 早 提出 的 互 斥 问题 (一 个 古老 但 很 重要 的 问题 ) ， 我 们 先 从 数学 的 抽象 角度 
出 发 ， 在 一 个 理想 化 的 系统 结构 中 研究 各 种 算法 的 可 计算 性 及 正确 性 。 虽 然 在 现代 的 系统 结 
构 中 这 些 算法 并 不 实用 ， 但 它们 却 是 一 些 经 典 的 算法 。 况 且 ， 对 这 些 经 典 算法 的 推理 分 析 过 
程 进行 深入 的 研究 ， 是 学 习 如 何 分 析 设计 更 加 复杂 的 实用 算法 的 必 有 经 之 路 。 尤 其 是 要 学 会 如 
何 来 分 析 和 处 理 类 似 于 饥饿 和 死 锁 这 种 微妙 的 活性 问题 。 

一 旦 大 体 上 掌握 了 这 些 算 法 的 一 般 分 析 方法 ， 就 可 以 转向 更 加 实际 的 情形 。 我 们 针对 不 
同 的 多 处 理 器 系统 结构 ， 设 计 开 发 了 一 系列 不 同 的 算法 和 数据 结构 ， 其 目的 在 于 对 比分 析 哪 
种 算法 的 效率 更 高 以 及 发 生 这 种 情形 的 原因 。 


1.7 本 章 注释 


大 多 数 有 关 Alice 和 Bob 的 故事 都 来 自 于 Leslie Lamport 于 1984 年 在 ACM 分 布 式 计算 原理 会 
议 上 的 特 邀 演讲 [92]。 读 者 一 写 者 问题 则 是 在 过 去 20 多 年 的 许多 文章 中 都 已 讨论 过 的 经 典 同步 
问题 。Amdahl 定 律 归功 于 Gene Amdahl， 他 是 并 行 处 理 领 域 中 的 先驱 人 物 [9]。 


1.8 习题 


习题 1. 哲学 家 就 餐 问题 是 由 并 发 处 理 的 先驱 E. W. Dijkstra 所 提出 的 ， 主 要 用 于 阐述 元 锁 和 无 饥 馈 
概念 。 假 设 五 个 哲学 家 一 生 只 在 思考 和 就 餐 。 他 们 围 华 在 一 个 大 圆桌 旁 ， 桌 上 有 一 大 盘 米 饭 。 
然而 只 有 五 根 可 用 的 包子 ， 如 图 1-5 所 示 。 所 有 的 哲学 家 都 在 思考 。 若 某 个 哲学 家 俄 了 ， 则 拿 起 
自己 身边 的 两 根 筷子 。 如 果 他 能 够 拿 到 这 两 根 筷子 ， 则 可 以 就 餐 。 当 这 个 哲学 家 吃 完 后 ， 又 放 
下 筷子 继续 思考 。 

1. 试 编写 模仿 哲学 家 就 餐 行为 的 程序 ， 其 中 每 个 哲学 家 为 一 
个 线程 而 筷子 则 是 共享 对 象 。 注 意 ， 必 须 防 止 出 现 两 个 哲 
学 家 同时 使 用 同一 根 筷子 的 情形 。 

2. 修改 所 编写 的 程序 ， 不 允许 出 现 死 锁 情 形 ， 也 就 是 说 ， 保 
证 不 会 出 现 这 样 的 情形 ， 每 个 哲学 家 都 已 拥有 一 根 筷子 ， 
并 且 正 在 等 待 获得 另 一 个 人 手中 的 筷子 。 

3. 修改 所 编写 的 程序 使 得 不 会 出 现 饥饿 现象 。 

4. 编写 能 够 保证 任意 n 个 哲学 家 无 饥饿 就 餐 的 程序 。 图 1-5 Dijkstra 提 出 的 餐桌 布局 

习题 2. 下 面 各 种 方法 满足 安全 性 还 是 活性 ?指出 所 关心 的 “坏事 ”和 “好 事 ”。 

1. 按 到 达 的 顺序 为 赞助 人 服务 。 
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[16] 2. 升 上 去 的 东西 都 必须 降下 来 。 
3. 如 果 有 两 个 或 多 个 进程 正在 等 待 进入 自己 的 临界 区 ， 则 至 少 有 一 个 会 成 功 。 
4. 如 果 发 生 一 个 中 断 ， 则 在 一 秒 内 要 输出 一 条 消息 。 
5. 如 果 发 生 一 个 中 断 ， 则 要 输出 一 条 消息 。 
6. 生活 费 决 不 下 降 。 
7. 有 两 件 事 是 肯定 的 : 死亡 和 税 。 
8. 你 总 是 能 够 告诉 一 个 哈佛 人 。 
习题 3. 在 生产 者 一 消费 者 问题 中 ， 假 设 Bob 能 够 看 见 Alice 窗 台 上 的 啤酒 镶 是 竖 直 还 是 翻 倒 的 。 请 基于 
啤酒 镶 一 绳子 协议 来 设计 一 种 生产 者 一 消费 者 协议 ， 使 得 即使 Bob 无 法 看 见 Alice 窗 台 上 啤酒 镶 的 状 
态 ， 也 能 够 正常 工作 ( 即 实际 中 断 位 是 如 何 工作 的 )。 
习题 4. 假设 你 是 最 近 被 捕 的 P 个 因 犯 之 一 。 监 狱 长 是 个 疯狂 的 计算 机 科学 家 ， 他 给 出 了 以 下 告示 : 
你 们 今天 可 以 在 一 起 商定 一 个 策略 ， 但 是 从 今天 之 后 ， 你 们 将 会 被 隔 开 关 在 不 同 的 房间 ， 
相互 间 无 法 再 进行 交流 。 
我 们 已 建造 了 一 种 “开关 房间 "， 里 面 有 一 个 灯 开 关 ， 这 个 开关 只 能 为 开 或 关 ， 且 没有 和 任 
何 东西 相连 。 
我 将 不 时 地 从 你 们 中 间 随 机 选择 一 位 到 “开关 房间 ”里 来 。 这 名 因 犯 可 以 拨 动 开关 (MF 
到 关 ， 或 相反 )， 也 可 保持 开关 的 状态 不 变 。 其 他 人 这 时 都 不 能 进入 房间 。 
每 一 名 囚犯 部 将 任意 多 次 地 进入 开关 房间 。 更 确切 地 说 ， 对 于 任意 的 N， 你 们 中 的 每 个 人 最 
终 都 至 少 进 入 这 个 房间 N 次 。 
任何 时 刻 ， 任 意 一 名 因 犯 都 可 以 宣布 :“ 我 们 所 有 的 人 都 已 经 至 少 到 过 开关 房间 一 次 了 。” 
如 果 该 断言 是 对 的 ， 我 将 释放 你 们 。 如 果 错 了 ， 我 就 把 你 们 全 都 送 去 喂 鳄鱼 。 说 慎 抉 择 吧 1 
* 在 开关 的 初始 状态 为 关 的 情况 下 ， 设 计 一 个 可 以 成 功 取 胜 的 策略 。 
* 在 不 知道 开关 初始 状态 的 情况 下 ， 设 计 一 个 可 以 成 功 取胜 的 策略 。 
RT: 所 有 的 囚犯 不 必 做 相同 的 动作 。 
习题 5. 上 题 中 的 监狱 长 又 有 了 另外 一 个 想法 。 他 命令 囚犯 们 站 成 一 排 ， 每 个 人 都 戴 一 顶 红 色 或 蓝 
色 的 帽子 。 没 有 人 知道 自己 所 戴 帽子 的 颜色 ， 也 不 知道 他 后 面 所 有 人 帽子 的 颜色 ， 但 能 看 见 前 
面 所 有 人 帽子 的 颜色 。 监 狱 长 从 队伍 的 后 面 开始 询 问 每 个 囚犯 ,让 他 们 猜测 自己 帽子 的 颜色 。 
囚犯 们 只 能 回答 “红色 ”或 “ 蓝 色 ”。 如 果 他 答 错 了 ， 就 会 被 送 去 喂 鳄 鱼 。 如 果 他 答对 了 ， 则 会 
[17 | 被 释放 。 每 个 囚犯 都 能 听 到 后 面 所 有 人 的 回答 ， 但 不 知道 答案 是 否 正确 。 
内 犯 们 在 站 队 之 前 可 以 商讨 一 个 策略 (监狱 长 是 听 着 的 ) 。 一 旦 站 好 队 之 后 ， 每 个 人 除了 能 
回答 “红色 ”或 “ 蓝 色 ”以 外 ， 再 也 不 能 以 其 他 任何 方式 进行 交流 。 
设计 一 个 能 够 保证 P 个 因 犯 中 至 少 有 P--1 个 会 被 释放 的 策略 。 
习题 6. 使 用 Amdahl 定 律 解决 下 面 问题 : 
“假定 在 一 个 程序 中 包含 有 一 个 无 法 并 行 化 的 方法 M， 其 执行 时 间 为 该 程序 总 运行 时 间 的 40%。 
若 在 一 台 n 处 理 器 的 多 核 机 器 上 运行 此 程序 ， 总 加 速 比 的 上 限 应 为 多 少 ? 
“假定 方法 MM 占 整 个 程序 执行 时 间 的 30%。 要 使 程序 的 总 运行 时 间 比 原来 提高 2 倍 ，M 的 加 速 比 应 
为 多 少 ? 
“假定 方法 M 的 速度 可 以 提高 3 倍 。 要 使 程序 的 总 加 速 比 为 原来 的 2 倍 ， 那 么 在 程序 的 总 运行 时 间 
中 ，M 应 占 多 大 的 比例 ? 
习题 7. 在 两 个 处 理 器 上 运行 时 ， 程 序 可 获得 的 加 速 比 为 $,。 使 用 Amdahl 定 律 推 导出 在 n 个 处 理 器 上 
运行 时 程序 的 加 速 比 S$,， 要 求 用 n 和 5S, 来 表示 。 
习题 8. 现 有 一 台 每 秒 可 执行 5 亿 万 条 指令 的 单 处 理 器 机 器 和 一 台 有 10 个 处 理 器 的 多 处 理 器 机 器 ， 其 
中 每 个 处 理 器 每 秒 可 执行 1 亿 万 条 指令 。 针 对 一 个 特定 的 应 用 ， 使 用 Amdahl 定 律 来 解释 应 该 购买 
[18] BBG BLE 
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The Art of Multiprocessor Programming (Revised First Edition) 


H à JẸ 


互 斥 是 多 处 理 器 程序 设计 中 最 常见 的 一 种 协作 方式 。 本 章 洱 盖 了 基于 读 / 写 共享 存储 器 模 
型 的 各 种 经 典 互 斥 算法 。 虽 然 这 些 算法 并 不 实用 ， 但 它们 全 面 地 概括 了 同步 领域 中 各 种 算法 
设计 及 正确 性 证 明 问 题 ， 因 此 值得 深入 研究 。 此 外 ， 本 章 还 介绍 了 不 可 能 性 的 证 明 方法 。 通 
过 这 种 证 明 ， 指 出 了 用 于 读 / 写 共享 存储 器 模型 中 的 各 种 互 斥 算法 所 存在 的 不 足 之 处 ， 为 后 面 
提出 更 加 实用 的 互 斥 算法 商定 了 基础 。 本 章 是 书 中 少数 几 个 包含 有 算法 证 明 的 章节 之 一 。 为 
轻松 起 见 ， 读 者 可 以 跳 过 这 些 证 明 部 分 ， 然 而 ， 理 解 这 些 证 明 的 推导 过 程 是 非常 有 益 的 ， 因 
为 这 种 推导 方法 可 以 用 于 后 面 实际 算法 的 推理 分 析 中 。 


2.1 时 间 


分 析 并 发 计算 的 实质 就 是 分 析 时 间 。 有 时 希望 事件 同时 发 生 ， 有 时 希望 事件 在 不 同时 间 
发 生 。 需 要 对 各 种 复杂 情形 进行 分 析 ， 包 括 多 个 时 间 片 应 该 怎样 交叉 重 琶 ,或 者 相互 之 间 不 
允许 重叠 。 为 此 ， 需 要 一 种 简单 而 无 二 义 性 的 语言 来 论述 事件 及 其 时 延 。 由 于 日 常 英语 的 不 
确定 性 及 二 义 性 ， 因 此 我 们 引入 一 些 简 单 的 符号 和 词汇 来 描述 并 发 线程 中 与 时 间 相 关 的 行为 
特征 。 

1689 年 ， 牛 顿 (Isaac Newton) 曾 说 过 : “真正 的 、 绝 对 的 、 数 学 意义 上 的 时 间 ， 就 其 自 
身 及 其 自身 的 自然 属性 而 言 ， 总 是 稳定 平静 地 六 动 着 ， 而 与 外 界 任何 事物 无 关 。” RTX Ep 
汐 难 懂 的 定义 方式 外 ， 我 们 完全 锣 同 牛顿 关于 时 间 的 看 法 。 所 有 线程 共享 一 个 共同 的 时 间 
(不 必 是 同一 个 公共 时 钟 ) 。 一 个 线程 是 一 个 状态 机 ， 其 状态 的 转换 称 为 事件 。 

事件 是 瞬时 的 ， 它们 在 单个 瞬间 发 生 。 为 了 便于 讨论 ， 我 们 认为 事件 绝 不 是 同时 的 : 不 
同 的 事件 在 不 同 的 时 间 发 生 。( 实 际 应 用 中 ， 如 果 不 能 确定 在 时 间 上 非常 接近 的 事件 到 底 谁 先 
谁 后 ， 那 么 以 任意 次 序 都 行 。) 线程 A 产生 一 个 事件 序列 a。，a,，…。 由 于 线程 中 往往 包含 有 
循环 ， 因 此 一 条 程序 语句 可 以 产生 多 个 事件 。 用 a 表 示 事 件 a 的 第 ,次 发 生 。 如 果 事 件 a 在 事件 
0 之 前 发 生 ， 则 称 a 先 于 ， 记 作 a 一 2。 事 件 集 上 的 先 于 关系 “一 ”是 全 序 的 。 

Sapha RRF, Haa, intervalla, a) RaRa Aa Z ARA. Rab (也 就 
是 说 ， 14 的 结束 事件 先 于 1s 的 开始 事件 ) ， 则 | 间隔 = interval (do, ql) 先 于 间隔 1s= interval (by, 
b)， 记 作 忆 一 请。 更 简单 地 说 ,“ 一 ”关系 是 间隔 集合 上 的 偏 序 关 系 。 多 个 不 存在 “一 ”关系 
的 间隔 称 为 并 发 的 。 类 似 于 事件 中 的 记 法 ， 用 及 表示 间隔 1 的 第 ji 次 执行 。 


2.2 临界 区 


前 面 讨论 了 Counter 类 的 实现 〈 图 2-1) 。 我 们 已 知 这 种 实现 在 单线 程 系统 中 能 够 正常 工作 ， 
而 在 多 线程 系统 中 则 有 可 能 出 错 。 出 现 这 种 现象 的 原因 就 在 于 两 个 线程 都 在 “start of danger 
zone”( 危 险 区 起 点 ) 那 一 行 读 了 value 域 的 值 ， 随 后 又 都 在 “end of danger zone”( 危 险 区 终 
A) 那 一 行 修改 了 value 域 的 值 。 
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1 class Counter { >] 
2 private int value; 

3 public Counter(int c) { // constructor 

4 value = c; 

5 

6 // increment and return prior value 

7 public int getAndIncrement() { 

8 int temp = value; // start of danger zone 
9 value = temp + 1; // end of danger zone 
10 return temp; 

11 } 

12 } 


图 2-1 Counter% 
为 了 避免 出 现 上 述 情形 ， 我 们 将 这 两 行 代码 置 入 临界 区 内 : 某 个 时 刻 仅 能 被 一 个 线程 执 
行 的 代码 段 。 称 这 样 的 特性 为 互 斥 。 实现 互 斥 的 标准 方法 就 是 采用 一 个 具有 如 图 2-2 所 述 接口 
的 Lock 对 象 。 





public interface Lock { 
public void lock(); // before entering critical section 


1 

2 

3 public void unlock(); // before leaving critical section 
4 


} 





图 2-2 Lock 对 象 的 接口 


1 public class Counter { 

2 private long value; 

3 private Lock lock; // to protect critical section 
4 

5 public long getAndIncrement() { 

6 Tock.lock(); // enter critical section 
7 try { 

8 long temp = value; // in critical section 

9 value = temp + 1; // in critical section 

10 return temp; 

i } finally { 

12 lock.unlock(); // leave critical section 
13 

14 } 








图 2-3 使 用 Lock 对 象 的 Counter 类 


为 简短 起 见 ， 一 个 线程 若 执行 了 1ock( ) 方 法 调用 ， 则 称 该 线程 获得 一 个 锁 (或 称 上 
锁 ) ; 车 执行 了 un1ock() 方 法 调用 ， 则 称 该 线程 释放 这 个 锁 (或 称 开锁 ) 。 图 2-3 说 明了 在 共 
享 计数 器 的 实现 中 ， 如 何 通 过 使 用 Lock 域 来 保证 对 象 的 互 尺 特性 。 线 程 必须 按照 指定 的 方式 
调用 1ock() 和 un1ock( )。 如 果 一 个 线程 满足 下 列 条 件 ， 则 称 它 是 良 构 的 : 

1. 一 个 临界 区 只 和 唯一 的 Lock 对 象 相关 联 ; 

2. 线程 准备 进入 临界 区 时 调用 该 对 象 的 1ock( ) 方 法 ; 

3. 当 线程 离开 临界 区 时 调用 un1ock( ) 方 法 。 
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编程 提示 2.2.1 在 Java 中 ， 应 该 采用 下 述 结 构 化 方式 调用 这 些 方法 。 
1 mutex.1ock(); 

2 try { 

ek //body 

4 } finally { 

5 mutex.unlock(); 

6 } 


这 种 用 法 能 够 确保 在 进入 try 程 序 块 以 前 获得 锁 ， 在 离开 程序 块 时 释放 锁 ， 即 使 在 程序 
块 中 的 某 些 语句 抛 出 异常 时 也 是 如 此 。 





下 面 我 们 形式 化 地 描述 一 个 好 的 锁 算法 应 该 满足 哪些 特性 。 令 CS 是 4 第 j 次 执行 临界 区 的 
时 间 段 。 为 简单 起 见 ， 假 设 线程 可 以 无 限 次 地 获得 锁 或 者 释放 锁 ， 而 在 它们 上 锁 /开锁 的 期 间 ， 
允许 其 他 的 事件 发 生 。 


BR ”不同 线程 的 临界 区 之 间 没 有 重 登 。 对 于 线程 A、B 以 及 整数 k, AŽ CSCA 
者 CS/s 一 CS%4。 

FHM “如果 一 个 线程 正在 尝试 获得 一 个 锁 ， 那 么 总 会 成 功 地 获得 这 个 锁 。 若 线程 A 调用 
lock( ) 但 无 法 获得 锁 ， 则 一 定 存 在 其 他 的 线程 正在 无 穷 次 地 执行 临界 区 。 

无 饥 俄 ”每 一 个 试图 获得 锁 的 线程 最 终 部 能 成 功 。 每 一 个 10ock( ) 调 用 最 终 部 将 返回 。 这 
种 特性 有 时 称 为 无 封锁 特性 。 


注意 无 饥饿 意味 着 无 死 锁 。 

显然 互 斥 是 基本 的 特性 。 没 有 这 种 特性 ， 将 无 法 保证 计算 结果 的 正确 性 。 按 照 第 1 章 的 术 
语 ， 互 斥 是 一 种 安全 特性 。 无 死 锁 是 重要 的 特性 ， 它 表明 系统 决 不 会 “冻结 ” 。 个 别 线程 可 能 
会 永久 地 停 沾 等 待 ( 称 为 饥 馈 )， 而 总 有 一 些 线程 能 够 继续 执行 。 无 死 锁 可 以 看 作 是 一 种 活性 
特性 〈 见 第 1 章 )。 值 得 注意 的 是 ， 即 使 一 个 程序 中 所 使 用 的 每 个 锁 都 满足 无 死 锁 特性 ， 该 程 
序 也 可 能 死 锁 。 例 如 ， 线 程 4 和 线程 8 共享 锁 4o 和 8,。A4 首 先 获 得 80 而 8 获得 了 81。 然 后 ，A 试 
图 获取 81 而 8 试图 获取 8。。 此 时 由 于 两 个 线程 都 需要 对 方 释放 锁 ， 从 而 陷入 等 待 发 生死 锁 。 

无 饥饿 特性 无 疑 是 最 令 人 满意 的 一 个 特性 ， 但 却 是 三 个 特性 中 最 不 需要 保持 的 。 稍 后 ， 
将 会 看 到 一 些 不 满足 无 饥饿 特性 但 却 很 实用 的 互 斥 算法 。 这 些 算法 被 广泛 地 使 用 在 一 些 理论 
上 有 可 能 发 生 饥饿 而 实际 上 却 不 会 出 现 的 应 用 场景 中 。 尽 管 如 此 ， 学 会 分 析 饥 饿 现象 对 理解 
是 否 存在 实际 的 威胁 依然 是 很 重要 的 。 

无 饥饿 特性 不 保证 线程 在 进入 临界 区 以 前 需要 等 待 多 长 时 间 ， 就 这 一 点 来 说 ， 它 也 是 比 
较 弱 的 。 下 面 将 会 讨论 为 线程 设置 等 待 时 间 边 界 的 算法 。 


2.3 双 线 程 解决 方案 
我 们 先 从 两 个 虽然 存在 不 足 但 却 十 分 有 趣 的 锁 算法 讲 起 。 


2.3.1 Lock0ne 类 


图 2-4 描 述 了 Lock0ne 算 法 。 双 线程 的 锁 算法 遵循 以 下 两 点 约定 : 线程 的 标识 为 0 或 1， 若 
当前 调用 者 的 标识 为 i， 则 另 一 方 为 j=1 一 i， 每 个 线程 通过 调用 ThreadID .get( ) 获 取 自 己 的 
标识 。 
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编程 提示 2.3.1 实际 编程 中 ， 为 了 保证 正常 地 工作 ， 图 2-4 中 的 布尔 型 变量 f1ag 以 及 
后 面 算 法 中 的 victim 和 1abe1 变 量 都 必须 被 声明 为 Volati1e 类 型 。 我 们 在 第 1 章 和 附录 也 中 
阅 述 其 原因 。 我 们 将 在 第 7 章 将 相应 的 变量 声明 为 volatile 类 型 。 





用 writes(x = v) 表 示 A4 将 值 v 赋 予 域 <， 用 reads(v == x) 表 示 A 从 域 x 中 读 取 值 "。 在 值 不 重要 的 
情形 下 ， 可 以 省 略 v。 图 2-4 中 的 writeA(f1ag[i] = true) 事 件 是 由 lock() 方 法 中 第 7 行 代码 的 执行 
所 引起 的 。 


1 class LockOne implements Lock { 

2 private boolean[] flag = new boolean[2]; 
3 // thread-local index, 0 or 1 

4 public void lock() { 

5 int i = ThreadID.get(); 
6 int j= 1 - i; 
7 flag[i] = true; 
8 


while (flag[j]) {} // wait 
9 } 
10 public void unlock() { 
11 int i = ThreadID.get(); 
12 flag[i] = false; 
13 } 
14 } 











图 2-4 Lockone 算 法 
引 理 2.3.1 LockO0ne 算 法 满足 互 斥 特性 。 
WEAR ”假设 不 成 立 ， 则 存在 整数 /和 K 使 得 CS CS 并 且 CS5 刀 CS%。 考 虑 每 个 线程 在 第 次 
(Birk) 进入 临界 区 前 最 后 一 次 调用 1ock( ) 方 法 的 执行 情形 。 


通过 观察 代码 可 以 看 出 
write,(flag[A] = true) 一 read,(flag[B] == false) > CS, (2.3.1) 
write,(flag[B] = true) 一 read,(flag[A] == false) 一 CS, (2.3.2) 
read,(flag[B] == false) 一 writes(f 1ag[B] = true) (2.3.3) 


注意 一 旦 fl1ag[B] 被 设置 为 true， 则 将 保持 不 变 。 由 此 得 知 公式 (2.3.3) 成 立 ， 否 则 线程 A 
就 不 可 能 读 到 f1ag[B] 的 值 为 false。 由 公式 (2.3.1) ~ (2.3.3) 和 先 于 关系 的 传递 性 可 导出 公 
式 (2.3.4)。 

writea(flag[A] = true) 一 read,(flag[B] == false) 一 (2.3.4) 
write,(flag[B] = true) 一 read,(flag[A] == false) 

Ht ay 4, write,(flag[A] = true)—read,(flag[A] == false) 过 程 中 没有 对 数组 f1ag[ ] 进 行 
写 操作 ， 得 出 矛盾 。 

Lockone 算 法 存在 缺陷 ， 其 原因 在 于 线程 交叉 执行 时 会 出 现 死 锁 。 若 事件 writes (f1ag[4] = 
true) 及 writes(f1ag[B] = true) 在 事件 readA(f1ag[B]) 和 reads(f1ag[4]) 之 前 发 生 ， 那 么 两 个 线程 
都 将 陷入 无 穷 等 待 。 然 而 ，Lock0ne 算 法 有 一 个 有 趣 的 特点 : 如 果 一 个 线程 在 另 一 个 线程 之 前 
运行 ， 则 不 会 发 生死 锁 ， 一 切 都 工作 得 很 好 。 

2.3.2 LockTwo 类 
图 2-5 给 出 了 另 一 种 锁 算 法 LockTwo 类 。 
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1 class LockTwo implements Lock { 

2 private int victim; 

3 public void lock() { 

4 int i = ThreadID.get(); 

5 victim = i; // let the other go first 
6 while (victim == i) { // wait 

7 } 

8 public void unlock() {} 

9 


} 





图 2-5 LockTwo 算 法 
引 理 2.3.2 LockTwo 算 法 满足 互 斥 特 性 。 
证 明 假设 不 成 立 ， 那 么 存在 整数 jk 使 得 CS4*CS% 且 CS% 刀 CS%。 考 虑 每 个 线程 在 第 次 
(第 j 次 ) 进入 临界 区 前 最 后 一 次 调用 1ock( ) 方 法 的 执行 情形 。 


通过 观察 代码 可 以 看 出 
write,(victim = A) — read,(victim == B) 一 CS, (2.3.5) 
write,(victim = B) — read,(victim == A) 一 CS, (2.3.6) 


线程 3 必须 在 事件 writes(victim = 4) 和 事件 readA(victim = B)Z ABE victimę ( 见 

公式 〈2.3.5) ) 。 由 于 这 是 最 后 一 次 赋值 ， 所 以 有 
write,(victim = A) — write,(victim = B) — read,(victim == B) (2.3.7) 

一 旦 victim 域 被 设置 为 B， 则 将 保持 不 变 。 所 以 ， 随 后 的 读 操作 都 将 返回 B， 与 公 
式 (2.3.6) 矛盾 。 

LockTwo 类 也 存在 缺陷 ， 当 一 个 线程 完全 先 于 另 一 个 线程 就 会 出 现 死 锁 。 尽 管 如 此 ， 
LockTwo 也 有 一 个 有 趣 的 特点 : 如 果 线 程 并 发 地 执行 ，1ock( ) 方 法 则 是 成 功 的 。Lockone 类 和 
LockTwo 类 彼此 互补 : 能 够 保证 一 种 解法 正常 工作 的 条 件 将 会 使 另 一 种 解法 发 生死 锁 。 
2.3.3 Peterson 锁 


在 图 2-6 中 ， 我 们 将 Lock0ne 和 LockTwo 结 合 起 来 ， 构 造 出 一 种 无 饥饿 的 锁 算 法 。 该 算法 无 
疑 是 最 简洁 、 最 完美 的 双 线 程 互 斥 算 法 ， 按 照 其 发 明 者 的 名 字 被 命名 为 “Peterson 算 法 ”。 


class Peterson implements Lock { 
2 // thread-local index, 0 or 1 
3 private boolean[] flag = new boolean[2] ; 
4 private int victim; 

5 public void lock() { 
6 

7 

8 
























int i = ThreadID.get(); 
int j= 1 - i; 
flag[i] = true; // I'm interested 


9 victim = i; // you go first 
10 while (flag[j] && victim == i) {}; // wait 
11 } 

12 public void unlock() { 

13 int i = ThreadID.get(); 





flag[i] = false; // I'm not interested 


图 2-6 Peterson 锁 算法 
引 理 2.3.3 Peterson 锁 算法 满足 互 斥 特 性 。 
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证 明 假设 不 成 立 ， 像 前 面 一样 ， 考 虑 线程 4 和 线程 B 最 后 一 次 执行 1ock( ) 方 法 的 情形 。 
通过 观察 代码 可 以 看 出 


write,(flag[A] = true) 一 (2.3.8) 
write,(victim =A) — read,(flag[B]) 一 read,(victim) 一 CS, 
write,(flag[B] = true) 一 (2.3.9) 


write,(victim = B) — read,(flag[A]) 一 read,(victim) 一 CS, 
不 失 一 般 性 ， 假 定 4 是 最 后 一 个 对 victim 域 进行 写 操作 的 线程 。 
write,(victim = B) — write,(victim = A) (2.3.10) 
AK (2.3.10) 隐 含 着 线程 4 在 公式 (2.3.8) 中 读 到 的 victim 值 为 4。 然 而 由 于 4 已 进入 了 
自己 的 临界 区 ， 所 以 它 读 到 的 f1ag[8] 肯 定 为 false， 因 此 有 

write,(victim = A) 一 read,(flag[B] == false) (2.3.11) 
由 公式 (2.3.9) ~ (2.3.11) 以 及 “一 ”关系 的 传递 性 ， 可 得 公式 (2.3.12), 

write,(f1ag[B] = true) — write,(victim = B) 一 

write,(victim = A) 一 read,(flag[B] == false) (2.3.12) 


由 此 推出 writes(f1ag[B] = true) 一 read,(flag[B] == false), 因为 在 进入 临界 区 之 前 ， 没 有 对 
flag[B] 执 行 过 任何 其 他 的 写 操作 ， 于 是 产生 矛盾。 
引 理 2.3.4 Peterson 锁 算法 是 无 饥饿 的 。 

证 明 假设 不 成 立 。 假 定 (不 失 一 般 性 ) 线程 4 一 直 在 执行 1ock( ) 方 法 ， 那 么 它 必 定 在 执 
行 While 语 句 ， 等 待 f1ag[B] 被 设置 为 false 或 者 victim 被 赋值 为 B。 

当 A4 不 能 继续 前 进 时 ， 线 程 B 在 做 什么 呢 ? 一 种 可 能 的 情况 是 ，B 在 反复 地 进入 临界 区 又 
离开 临界 区 。 若 是 这 样 ， 线 程 一 旦 重新 进入 临界 区 便 会 将 victim 设 为 B。 一 旦 victim 被 设 为 
已 ， 就 不 再 改变 了 ， 那 么 4 最 终 肯定 会 从 1ock( ) 方 法 返回 ， 了 矛盾 。 

因此 只 可 能 是 另 一 种 情况 ， 线 程 B 也 陷入 1ock( ) 方 法 调用 ， 等 待 f1ag[A] 被 设置 为 false 或 
者 Victim 被 赋值 为 4。 但 是 victim 不 可 能 同时 被 赋值 为 4 和 B， 再 次 出 现 巴 盾 。 口 

推论 2.3.1 Peterson 锁 算法 是 无 死 锁 的 。 


2.4 过 滤 锁 


下 面 分 析 两 种 支持 n(n>2) 线程 的 互 斥 协 议 。 第 一 种 协议 称 为 过 滤 锁 ， 它 是 Peterson 锁 算 
法 在 多 线程 上 的 直接 一 般 化 。 第 二 种 协议 称 为 Bakery 锁 ， 是 一 种 最 简单 也 最 为 人 们 所 熟知 的 n 
线程 锁 算法 。 

图 2-7 所 示 为 过 滤 锁 ， 它 建立 了 n 一 1 个 称 为 屋 的 “等 候 室 ”*"， 每 个 线程 在 获得 锁 之 前 必须 穿 
过 所 有 的 层 。 图 2-8 描 绘 了 这 种 层次 结构 。 所 有 的 层 必须 满足 两 个 重要 特性 : 

* 至少 有 一 个 正在 尝试 进入 层 8 的 线程 会 成 功 。 

* 如果 有 一 个 以 上 的 线程 要 进入 层 2 ， 则 至 少 有 一 个 线程 会 被 阻塞 ( 即 继续 在 那个 层 

等 待 )。 

Peterson 锁 用 一 个 2 元 布尔 数组 f1ag 来 表示 某 个 线程 是 否 正 在 尝试 进入 临界 区 。 过 滤 锁 将 
此 概念 一 般 化 ， 使 用 一 个 n 元 整 型 数组 leve1[]， 其 中 leve1[4] 的 值 表示 线程 4 正在 尝试 进入 的 
最 高 层次 。 每 个 线程 都 必须 通过 n 一 1 层 的 “排除 ”才能 进入 自己 的 临界 区 。 每 个 层 2 都 有 一 个 
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victim 8] 域 ， 用 来 “过 滤 出 ”一 个 线程 ， 使 其 不 能 进入 下 一 层 。 





1 class Filter implements Lock { 

2 int[] level; 

3 int[] victim; 

4 public Filter(int n) { 

5 level = new int[n]; 

6 victim = new int[n]; // use 1..n-1 
7 for (int i = 0; i < n; i++) { 

8 level{i] = 0; 

9 

10 } 

11 public void lock() { 

12 int me = ThreadID.get(); 

13 for (int i = 

14 level[me] = i; 

15 victimf[i] = me; 

16 // spin while conflicts exist 
17 while ((3k != me) (level[k] >= i 
18 } 

19} 
20 public void unlock() { 
21 int me = ThreadID.get(); 
22 level[me] = 0; 

23 

24 } 


1; i < n; i++) { // attempt level i 





&& victim[i] == me)) {}; 








图 2-7 过 滤 锁 算法 


初始 时 线程 4 在 层 0 中 。 当 它 最 后 一 次 完成 第 
17 行 的 等 待 循环 时 ，1eve1[4] >j， 称 此 时 线程 4 
EBJ (j>0) 中 。( 因 此 一 个 在 层 j 中 的 线程 也 在 
层 j-1 中 ， 以 此 类 推 。) 

引 理 2.4.1 对 于 0 到 n 一 1 中 的 整数 j， 层 j 上 最 
多 有 7 一 /个 线程 。 

证 明 对 j 使 用 归纳 法 。 当 j= 0 时 ， 显 然 成 
立 。 假 设 层 j 二 -1 中 最 多 有 nj+1 个 线程 。 现 要 证 明 
至 少 有 一 个 线程 不 能 进入 层 j， 为 此 ， 我 们 采用 反 
证 法 : 假设 层 j 中 有 nj+1 个 线程 。 

令 A 是 层 j 中 最 后 一 个 对 victim[j] 执 行 写 操作 
的 线程 。 由 于 A 是 最 后 一 个 线程 ， 那 么 对 层 j 中 的 
任何 其 他 线程 8 都 有 : 


write,(victim[ j]) 一 write,(victiml[ j]) 


观察 代码 ， 可 以 看 出 线程 B 对 1eve1[B] 的 写 是 
在 它 对 victim[ 让 赋值 之 前 完成 的 ， 所 以 


具有 7 个 线程 的 非 临界 区 





8=n—1 


图 2-8 线程 需要 通过 n 一 1 个 层 ， 最 后 一 层 是 
临界 区 。 最 多 有 n 个 线程 可 以 同时 进 
入 层 0， 最 多 有 nn 一 1 个 线程 可 以 同时 
进入 层 1 ( 层 1 中 的 线程 已 在 层 0 中 )， 
最 多 有 7 一 2 个 线程 可 以 同时 进入 层 2， 
以 此 类 推 ， 最 后 只 有 一 个 线程 能 够 进 
入 n 一 1 层 中 的 临界 区 


writes(level[B] = j) 一 write,(victim[j]) 一 write,(victim[j]) 


另外 还 可 以 看 出 线程 A 对 1eve1[B] 的 读 是 在 它 对 vi 


ctin j] 写 之 后 才 进行 的 ， 所 以 


write,(level[B] =j) — write,(victim[ j]) — write,(victim[j]) 一 read,(1evel[B]) 
又 因为 B 在 层 j 中 ， 所 以 A 每 次 读 1eve1[B8] 时 ， 必 然 读 到 一 个 大 于 或 等 于 j 的 值 ， 也 就 是 说 A 
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不 能 完成 第 17 行 的 等 待 循环 ， 了 矛盾 。 

进入 临界 区 等 价 于 进入 层 n 一 1。 

推论 2.4.1 过 滤 锁 算法 满足 互 斥 特性 。 

引 理 2.4.2 ”过滤 锁 算 法 是 无 饥 馈 的 。 

证 明 ”对 层 数 进行 反 向 归纳 。 对 层 n-1， 引 理 显然 成 立 ， 因 为 在 层 n 一 1 中 最 多 只 有 一 个 线 
程 。 根 据 归 纳 假设 ， 现 假定 每 个 到 达 层 ji+1 或 更 高 层 的 线程 最 终 都 能 进入 (并且 离开 ) 自己 的 
临界 区 。 

假设 线程 4 被 阻塞 在 层 j 中 。 由 归纳 假设 可 知 ， 在 比 高 的 层次 中 最 终 将 没有 线程 存在 。 一 
且 4 将 1eve1[4] 设 置 为 /， 那 么 所 有 在 层 广 1 中 读 1eve1[4] 的 线程 将 都 不 能 进入 层 Jj。 于 是 ， 层 
Jj 一 1 中 的 所 有 线程 由 于 其 随后 对 1eve1[A] 的 读 而 都 不 能 进入 层 j。 最 终 ， 没 有 线程 可 以 从 小 于 j 
的 层 进 到 层 j。 于 是 ， 所 有 在 层 中 被 阻塞 的 线程 都 在 执行 第 17 行 的 等 待 循环 ， 并 且 victim 域 
和 1eve1 域 的 值 不 再 改变 。 

现在 对 阻塞 在 层 j 中 的 线程 个 数 进行 归纳 。 若 4 是 层 或 更 高 层 中 唯一 的 线程 ， 那 么 它 无 疑 
将 会 进入 层 计 1。 现 假设 有 小 于 k 个 线程 不 会 被 阻塞 在 层 j 中 。 如 果 线 程 4 和 线程 B 被 阻塞 在 层 j 
中 ， 那 么 A4 只 有 读 到 victim[ 有 站 = A 时 才 会 阻塞 ， 同 样 8 只 有 读 到 victim[ 有 站 = B 时 才 会 阻塞 。 因 
为 victim 域 是 不 变 的 ， 所 以 此 时 它 不 可 能 同时 等 于 和 B， 因 此 这 两 个 线程 中 必 有 一 个 会 进入 
层 /1， 从 而 将 阻塞 的 线程 个 数 减少 为 上 -1， 与 归纳 假设 矛盾 。 

推论 2.4.2 过滤 锁 算法 是 无 死 锁 的 。 


2.5 公平 性 


无 饥饿 特性 能 够 保证 每 一 个 调用 1ock( ) 的 线程 最 终 都 将 进入 临界 区 ， 但 并 不 保证 进入 临 
界 区 需要 多 长 时 间 。 理 想 情况 下 ( 非 形 式 化 的 )， 如 果 A 在 B 之 前 调用 1ock() 方 法 ， 那 么 4 也 应 
该 先 于 B 进 入 临界 区 。 然 而 ， 运 用 现 有 的 工具 无 法 确定 哪个 线程 首先 调用 1ock( ) 方 法 。 取 而 代 
之 的 做 法 是 ， 将 1ock( ) 方 法 的 代码 划分 为 两 个 部 分 (根据 相应 的 执行 区 间 ) : 

1 .门廊 区 ， 其 执行 区 间 D4 由 有 限 个 操作 步 组 成 。 

2. 等 待 区 ， 其 执行 区 间 凤 ,可 能 包括 无 穷 个 操作 步 。 

门廊 区 应 该 在 有 限 步 内 完成 是 一 种 强 约束 条 件 。 称 这 种 约束 为 有 界 无 等 待 演进 特性 。 稍 
后 的 章节 中 将 会 讨论 保障 这 一 特性 的 系统 实现 方法 。 

下 面 是 公平 性 定义 。 

定义 2.5.1 满足 下 面条 件 的 锁 称 为 先 来 先 服务 的 : to RRAN BR h ti RA RABI Hip 
区 的 开始 之 前 完成 ， 那 么 线程 4 必定 不 会 被 线程 B 赶 超 。 也 就 是 说 ， 对 于 线程 4、 盏 及 整数 k: 

若 应 一 D5， 则 CS 一 CS5 























2.6 Bakery 算 法 


图 2-9 描 述 了 Bakery 锁 算法 。 该 算法 采用 面包 店 里 发 号 机 的 一 种 分 布 式 版 本 来 保证 先 来 先 
服务 特性 : 每 个 线程 在 门廊 区 得 到 一 个 序号 ， 然 后 一 直 等 待 ， 直 到 再 没有 序号 比 自己 更 早 的 
线程 尝试 进入 临界 区 为 止 。 

在 Bakery 锁 算法 中 ，f1ag[4] 是 一 个 布尔 型 标志 ， 表 示 线 程 4 是 否 想 要 进入 临界 区 ， 
1abe1[4] 是 一 个 整 型 数 ， 说 明 线 程 进入 面包 店 的 相对 次 序 。 
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1 class Bakery implements Lock { 

2 boolean[] flag; 

3 Label[] label; 

4 public Bakery (int n) { 

5 flag = new boolean[n]; 

6 label = new Label[n]; 

7 for (int i = 0; i < n; i++) { 

8 flagfi] = false; label[i] = 0; 

9 
10} 

11 public void lock() { 
12 int i = ThreadID.get(); 

13 flag[i] = true; 

14 label[i] = max(label[0], ...,label{n-1]) + 1; 
15 while ((3k != i)(flag[k] && (label[k],k) << (labelf[i],i))) {}; 
16 


} 

17 public void unlock() { 

18 flag[ThreadID.get()] = false; 
} 





图 2-9 Bakery 锁 算法 


每 当 线程 想 获得 一 个 锁 时 ， 它 按照 下 面 两 个 步骤 产生 新 的 1abe1[]。 第 一 步 ， 它 以 任意 的 
次 序 读 取 所 有 其 他 线程 的 1abe1 值 。 第 二 步 ， 相 继 地 读 取 其 他 线程 的 1abe1 值 (可 以 按照 某 种 
次 序 )， 生 成 一 个 比 它 所 读 到 的 最 大 值 大 1 的 1abe1 值 。 我 们 把 升 起 flag (第 13 行 ) 到 写 新 的 
label[] (第 14 行 ) 这 一 段 代码 称 为 门廊 。 它 表明 线程 的 序号 与 正在 试图 获得 锁 的 其 他 线程 相 
关 。 如 果 有 两 个 线程 同时 在 门廊 中 ， 它 们 有 可 能 读 到 相同 的 最 大 1abe1 值 ， 从 而 产生 同样 的 新 
1abel1 值 。 为 了 打破 这 种 对 称 性 ， 算 法 中 采用 了 字典 顺序 “<<” 来 比较 (1abe1[]，id) 对 : 

(label[i],i)<<(label[j],j) 4AM4 
label[i] < label[j]#%1abel[i] = label[j]Hi<j (2.6.13) 

在 Bakery 算 法 的 等 待 部 分 (第 15 行 ) 中 ， 每 个 线程 以 某 种 任意 的 顺序 交替 地 反复 读 取 
1abe1， 直 到 在 所 有 已 升 起 f1ag 的 线程 中 ， 该 线程 的 (1abe1[]，id) 变 为 最 小 为 止 。 

由 于 释放 锁 时 并 不 重 设 1abe1[]， 所 以 每 个 线程 的 1abe1 值 是 严格 递增 的 。 有 趣 的 是 ， 在 
门廊 区 和 等 竺 区， 线程 都 是 异步 地 读 取 1abe1 值 ， 其 次 序 是 随机 的 。 所 以 产生 新 1abe1 集 之 前 
的 那个 1abe1 集 可 能 绝 不 会 在 同一 个 时 刻 存 在 于 内 存 中 。 尽 管 如 此 ，Bakery 算 法 还 是 可 以 工 
作 的 。 

引 理 2.6.1 Bakery 锁 算法 是 无 死 锁 的 。 

证 明 正在 等 待 的 线程 中 ， 必 定 存 在 某 个 线程 4 具有 唯一 的 最 小 (1abe1[4], A)， 那 么 这 
个 线程 决 不 会 等 待 其 他 的 线程 。 

引 理 2.6.2 Bakery 锁 算法 是 先 来 先 服务 的 。 

证 明 ”如果 A 的 门廊 区 先 于 8B 的 门廊 区 ，Ds 一 Da， 那么 4 的 1abe1 必 小 于 B 的 1abe1， 因 为 

writea(1abe1[A]) 一 reads(1abe1[4]) 一 write, (1abe1[B]) 一 read,(flag[A]) 

所 以 ， 当 flag[A4] 为 true 时 B 被 封锁 在 外 无 法 进入 。 

注意 ， 既 满足 无 死 锁 又 满足 先 来 先 服务 特性 的 算法 必 是 无 饥 馈 的 。 

引 理 2.6.3 Bakery Hit BLAH, 

证 明 假设 不 成 立 。 令 A 和 B 是 两 个 同时 在 临界 区 内 的 线程 。labeling4 和 1labelings 为 它们 各 
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自 进入 临界 区 前 最 后 获得 新 1abe1 的 事件 。 假 设 (1abe1[4], A) << (label[B], B)。 当 她 成 功 地 完 
成 在 它 的 等 待 区 内 的 检测 时 ， 它 必定 已 读 到 f1ag[A] 的 值 为 false 或 (1abe1[B], B) << (1abe1[4]， 
4A)。 然 而 ， 对 一 个 给 定 的 线程 来 说 ， 其 id 是 固定 的 且 它 的 1abe1[] 值 是 严格 递增 的 ， 所 以 8 只 能 
读 到 fl1ag[4] 的 值 为 false。 由 此 推出 

labeling, 一 read,(flag[A]) 一 write,(flag[A]) 一 labeling, 


与 假设 (1abe1[4],4) << (label[B], B) 了 矛盾 。 
2.7 A FLAT le] Bk 


在 Bakery 锁 中 ，1abe1 值 是 无 限 增长 的 ， 因此 在 生命 期 很 长 的 系统 中 不 得 不 考虑 溢出 问题 。 
如 果菜 个 线程 的 1abe1 域 在 其 他 线程 都 不 知情 的 情况 下 从 一 个 很 大 的 值 返回 到 零 ， 那 么 先 来 先 
服务 特性 将 被 破坏 。 

下 面 将 会 看 到 一 种 利用 计数 器 给 线程 排序 ， 其 至 可 为 每 个 线程 产生 一 个 唯一 标识 符 的 构 
造 。 溢 出 问题 在 现实 中 到 底 有 多 重要 呢 ? 这 很 难 概括 。 有 的 时 候 它 的 问题 很 大 。 在 20 世 纪 最 
后 的 几 年 中 媒体 曾 无 数 次 报道 著名 的 “Y2K” 程 序 缺陷 ， 虽 然 其 引发 的 后 果 并 没有 想象 中 那 
么 可 怕 ， 但 它 却 是 溢出 问题 的 一 个 典型 实例 。 到 2038 年 1 月 18 日 ，Unix 的 time_t 数 据 结构 将 
会 溢出 ， 因 为 其 秒 的 数值 是 从 1970 年 1 月 开始 计算 的 ， 而 在 那 一 刻 将 会 超过 232。 没 有 人 知道 
这 到 底 会 引发 什么 。 当 然 ， 有 的 时 候 计 数 器 的 溢出 并 不 会 产生 什么 大 问题 。 大 多 数 采用 64 位 
计数 器 的 应 用 程序 在 其 生存 周期 内 是 不 可 能 发 生 这 种 “ 回 零 ”问题 的 。( 让 我 们 的 孙子 辈 来 忧 
心 吧 ! ) 

在 Bakery 锁 中 ，1abe1 扮 演 着 时 间 惟 的 角色 :它们 为 所 有 和 争 用 的 线程 安排 了 一 种 次 序 。 非 
形式 化 地 来 说 ,我 们 要 确保 若菜 个 线程 在 另 一 个 线程 之 后 得 到 一 个 1abe1， 那 么 后 者 的 1abe1 
值 一 定 要 比 前 者 的 大 。 仔 细 观 察 Bakery 锁 算法 的 代码 ， 可 以 看 出 一 个 线程 需要 具备 两 种 能 

* 读 取 其 他 线程 的 时 间 惟 (扫描 )。 

“为 自己 指定 一 个 更 晚 的 时 间 惟 (标记 )。 

图 2-10 摘 述 了 一 个 针对 这 种 时 间 惟 系统 的 Java 接 口 。 由 于 有 界 时 间 蕉 系统 主要 用 于 实现 
Lock 类 的 门廊 区 ， 所 以 时 间 惟 系统 必须 是 无 等 待 的 。 构 造 这 种 无 等 待 的 并 发 时 间 蕉 系统 ( 参 
见 本 章 注释 ) 是 可 行 的 ， 但 其 构造 过 程 非常 长 并 且 技术 要 求 也 非常 高 。 取 而 代 之 的 是 ， 我 们 
重点 关注 一 种 更 为 简单 的 问题 ， 只 考虑 其 自身 的 正确 : 构造 一 个 品行 的 时 间 惟 系统 ， 在 该 系 
统 中 并 发 线程 互 不 重 又 地 交 赫 执行 扫描 一 标记 操作 ， 就 好 像 每 个 扫描 一 标记 操作 是 通过 互 斥 来 
完成 的 。 换 名 话说， 只 考虑 这 样 的 执行 ， 即 线程 能 完成 对 其 他 线程 1jabe1 的 一 次 扫描 (或 一 个 
扫描 )， 然 后 指定 一 个 新 的 1abe1， 每 个 这 样 的 操作 序列 是 一 个 单独 的 原子 操作 步 。 并 发 时 间 
惟 系 统 和 串 行 时 间 惟 系统 的 原理 其 本 质 是 相同 的 ， 只 是 在 细节 上 有 所 差别 。 

















public interface Timestamp { 
boolean compare(Timestamp) ; 


public Timestamp[] scan(); 


1 

2 

3 

4 public interface TimestampSystem { 

5 

6 public void label(Timestamp timestamp, int i); 
$ 








图 2-10 时 间 惟 系统 的 接口 
所 有 的 时 间 改 都 可 以 看 作 一 个 有 向 图 ( 称 为 前 趋 图 ) 中 的 结 点 。 结 点 a 到 结 点 b 的 边 则 表 
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示 4 的 时 间 惟 比 2 的 晚 。 时 间 惟 的 次 序 是 反 自 反 的 : 任意 结 点 a 不 存在 从 自己 出 发 指向 自己 的 边 。 
时 间 惟 的 次 序 也 是 反对 称 的 : 若 存在 一 条 从 a 到 2 的 边 ， 则 必 不 存在 从 2 到 c 的 边 。 注 意 ， 并 不 
要 求 时 间 惟 的 次 序 是 可 传递 的 : 虽然 存在 一 条 从 a 到 b 的 边 和 一 条 从 5b 到 c 的 边 ， 但 并 不 一 定 存 
在 一 条 从 a 到 c 的 边 。 

给 一 个 线程 指定 一 个 时 间 惟 可 以 看 作 是 将 该 线程 的 令 牌 放 在 那个 时 间 惟 的 结 点 上 。 线 程 
通过 定位 其 他 线程 的 令 牌 来 完成 扫描 ， 然 后 通过 将 自己 的 令 牌 移 到 结 点 a 来 为 自己 指定 一 个 新 
的 时 间 惟 ， 并 使 得 从 a 到 其 他 所 有 的 线程 结 点 都 存在 
一 条 边 。 

实际 编程 中 ， 这 种 系统 是 作为 一 个 单 写 者 /多 读 
者 域 所 组 成 的 数组 来 实现 的 ， 其 中 数组 元 素 4 代表 线 
程 4 最 近 放 置 其 令 牌 的 有 向 图 结 点 。scan( ) 方 法 可 以 
获取 该 数组 的 一 个 “快照 >， 线程 4 的 1abe1() 方 法 将 图 2-11 CAMARA A, 4 
会 修改 数组 的 第 4 个 元 素 。 eg es 

图 2-11 是 Bakery 锁 中 无 界 时 间 玲 系统 的 前 趋 图 。 eee 
显然 它 是 无 限 的 : 每 一 个 自然 数 都 有 一 个 结 点 ， 且 只 要 a > bp， 就 存在 一 条 从 a 到 b 的 有 向 边 。 

考虑 图 2-12 中 的 前 趋 图 ?。 图 中 有 三 个 结 点 ,分 别 标记 为 0、1 和 2， 其 中 边 定 义 了 结 点 集 
上 的 次 序 关 系 ，0 小 于 1，1 小 于 2，2 又 小 于 0。 如 果 只 有 两 个 线程 ， 则 可 以 使 用 这 个 图 定义 一 
个 有 界 〈 串 行 的 ) MRA. BARE PRE: 两 个 线程 的 令 牌 总 是 放 在 相 邻 的 结 
点 上 ， 边 的 方向 表示 它们 的 相对 次 序 。 假 设 A 的 令 牌 在 结 点 0 上 ，B 的 令 牌 在 结 点 1 上 (所 以 4 
具有 较 晚 的 时 间 戳 ) 。 对 于 4 来 说 ， 方 法 1abe1() 是 平凡 的 : 因为 它 已 经 是 最 晚 的 时 间 惟 ， 所 以 
不 做 任何 动作 。 对 于 8 来 说 ， 方 法 1abe1() 则 “ 跳 过 ”4 的 结 点 从 0 变 为 2。 

有 向 图 中 的 环 (cycle) 9 是 指 一 系列 结 点 no。，n1，…，n4， 其 中 有 一 条 边 从 no 到 n,， 有 一 
条 边 从 nl 到 n,， 最 后 有 一 条 边 从 n_1 到 nt， 并 有 一 条 边 从 返回 no。 

因为 ?中 唯一 闭环 的 长 度 为 3， 且 只 有 两 个 线程 ， 所 以 线程 之 间 的 次 序 是 确定 的 。 对 于 两 
个 以 上 的 线程 , 需要 附加 的 概念 工具 。 令 G 是 一 个 前 趋 图 , 4 和 B 是 G 的 子 图 (可 能 为 单个 结 点 )。 
若 4 的 每 个 结 点 都 有 指向 B 中 所 有 结 点 的 边 ， 则 称 图 G 中 A 支配 B。 图 的 来 法 则 定义 为 下 面 这 种 
不 可 交换 的 复合 运算 符 ( 记 为 G。 H): 

用 玖 的 一 个 描 贝 (表示 为 及 ,) 来 替换 G 中 的 每 一 个 结 点 v， 且 如 果 在 图 G 中 * 支 配 !&， 则 

G° HPH, E&H, 

递归 地 定义 图 7 如 下 : 

1.7 是 单个 结 点 。 

2. 7 是 前 面 所 定义 的 三 结 点 图 。 

3.8 F2, T =T o T, 

例如 ， 图 2-12 描 述 了 图 有 到。 

前 趋 图 7 是 ”线程 有 界 串 行 时 间 惟 系统 的 基础 。 可 以 采用 三 进 制 概念 ， 用 zx 一 1 位 数字 对 图 
中 的 任意 结 点 进行 “ 编 址 ”。 例 如 ，7T? 中 的 结 点 被 编 址 为 0%，1 和 2。TP 中 的 结 点 被 标识 为 00， 
01，…，22， 其 中 高 位 数字 指 三 个 子 图 中 的 一 个 子 图 ， 低 位 数字 指 相应 子 图 中 的 一 个 结 点 。 

7? 线程 标记 算法 的 关键 就 在 于 所 有 被 令 牌 覆盖 的 结 点 决 不 会 形成 闭环 。 正 如 前 面 所 指出 的 ， 
在 7? 中 两 个 线程 不 可 能 形成 闭环 ， 因 为 ?中 最 短 的 闭环 需要 三 个 结 点 。 


O “cycle” 来 自 于 相同 的 希腊 词根 “circle”。 
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Tk = 72* Tk-1 





图 2-12 有 界 时 间 改 系统 的 前 趋 图 。 初 始 时 ， 令 牌 4 在 结 点 12 上 〈 子 图 1 中 的 结 点 2) ， 令 牌 
B 和 令 牌 C 分 别 位 于 结 点 21 和 22 上 ( 子 图 2 中 的 结 点 1 和 结 点 2) 。 令 牌 B 准 备 移 到 结 
点 20 以 支配 其 他 的 令 牌 。 然 后 令 牌 C 准 备 移 到 21 以 支配 其 他 令 牌 ， 令 牌 B 和 令 牌 C 
都 可 以 继续 在 子 图 2 的 TT 中 无 限 循 环 。 如 果 A 打 算 移 动 以 支配 B 和 C， 那 么 在 子 图 2 
中 不 可 能 挑选 出 一 个 结 点 , 因为 子 图 2 已 经 满 了 (任意 子 图 7 最 多 可 容纳 k 个 令 牌 )。 
于 是 ， 将 令 牌 4 移 到 结 点 00。 若 现在 8 要 移动 ， 它 将 选择 结 点 01，C 将 选择 10， 以 
此 类 推 


对 三 个 线程 1abe1( ) 方 法 是 如 何 工作 的 ? 当 A4 调 用 1abe1( ) 时 ， 如 果 其 他 两 个 线程 在 同一 
个 子 图 ?中 都 有 令 牌 ， 那么 令 牌 将 移动 到 下 一 个 最 高 子 图 TY 中 的 某 个 结 点 上 ， 该 子 图 的 所 有 结 
点 都 支配 前 面 的 子 图 TF。 例如 ， 考 虑 图 2-12 中 的 T。 假 设 初 始 状 态 没 有 闭环 ， 令 牌 4 位 于 结 点 
12 上 ( 子 图 1 中 的 结 点 2) ， 令 牌 B 和 令 牌 C 分 别 位 于 结 点 21 和 22 上 ( 子 图 2 中 的 结 点 1 和 结 点 2)。 
令 牌 8 准备 移动 到 20 以 支配 其 他 令 牌 。 然 后 令 牌 C 准 备 移 动 到 21 以 支配 其 他 令 牌 ，B 和 C 可 以 继 
续 在 子 图 2 的 ?内 无 限 循 环 。 若 此 时 A 要 移动 到 支配 B 和 C 的 位 置 ， 那 么 它 无 法 在 子 图 2 中 选择 
出 一 个 结 点 ， 因 为 子 图 2 已 经 满 了 (任意 子 图 7" 最 多 可 容纳 k 个 令 牌 )。 于 是 ， 令 牌 4 移动 到 结 
点 00。 若 现在 B 要 移动 ， 它 将 选择 结 点 01，C 将 选择 10， 以 此 类 推 。 


2.8 存储 单元 数量 的 下 界 


Bakery 锁 是 简洁 、 优 美 且 公平 的 。 那 么 它 为 什么 不 实用 呢 ?” 最 主要 的 问题 就 是 要 读 / 写 n 个 
不 同 的 存储 单元 ， 基 中 n(n 可 能 非常 大 ) 是 并 发 线程 的 最 大 个 数 。 

是 否 存在 更 好 的 基于 读 / 写 存储 器 的 Lock 算 法 可 以 避免 这 种 开销 呢 ? 下 面 来 证 明 答案 是 否 
定 的 。 也 就 是 说 ， 任 意 一 种 无 死 锁 的 Lock 算 法 在 最 坏 情 况 下 至 少 需要 读 / 写 ?个 不 同 的 存储 单 
元 。 该 结论 非常 重要 ， 正 是 因为 这 样 的 结论 ， 才 促使 我 们 在 多 处 理 器 机 器 中 ， 增 加 一 些 功能 
要 比 读 / 写 操作 更 加 强大 的 同步 操作 ， 并 以 这 些 操作 作为 互 斥 算 法 的 基础 。 

在 讨论 实用 的 互 斥 算法 之 前 ， 我 们 首先 证 明 为 什么 这 种 线性 下 界 是 解决 互 斥 问题 时 所 固有 
的 。 下 面 将 会 看 到 只 能 通过 读 / 写 指令 (实际 中 称 为 载 入 和 存储 ) 访问 的 存储 单元 具有 如 下 重 
要 限制 : 一 个 线程 向 某 指定 单元 写 的 任何 信息 ， 在 其 他 线程 读 取 之 前 可 能 会 被 重 写 (Bie). 

为 了 完成 证 明 ， 首 先 介绍 多 线程 程序 使 用 的 存储 器 状态 的 概念 。 对 象 的 状态 就 是 该 对 象 
域 的 状态 。 线 程 的 局 部 状态 就 是 该 线程 局 部 变量 和 程序 计数 器 的 状态 。 全 局 状态 或 系统 状态 
则 是 所 有 对 象 的 状态 以 及 所 有 线程 的 局 部 状态 之 和 。 

定义 2.8.1 对 于 任意 一 个 全 局 状态 ， 若 此 刻 有 某 个 线程 正在 临界 区 内 ， 而 锁 的 状态 却 与 
一 个 没有 线程 在 临界 区 内 或 正在 尝试 进入 临界 区 的 全 局 状态 相符 ， 则 称 该 Lock 对 象 的 状态 5 是 
不 一 致 的 。 

引 理 2.8.1 无 死 锁 的 Lock 算 法 不 可 能 进入 不 一 致 状态 。 
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证 明 假设 Lock 对 象 处 于 不 一 致 状态 *， 且 此 时 没有 线程 在 临界 区 内 或 正在 尝试 进入 临界 
区 。 如 有 果 线 程 38 想 要 进入 临界 区 ， 由 于 算法 是 无 死 锁 的 ， 因 此 它 最 终 必 成 功 进入 ， 于 是 得 到 了 予 
盾 ， 因 为 8 无 法 确定 4 是 否 处 于 临界 区 内 。 

任何 解决 无 死 锁 互 斥 问题 的 Lock 算 法 必定 需要 7z 个 不 同 的 存储 单元 。 这 里 ， 只 以 3 个 线程 
的 情况 为 例 ， 说 明 被 3 个 线程 访问 的 无 死 锁 Lock 算 法 必须 使 用 3 个 不 同 的 存储 单元 。 

定义 2.8.2 Lock 对 象 的 覆盖 状态 是 指 这 样 的 状态 : 至 少 有 一 个 线程 欲 写 所 有 的 共享 存储 
单元 ， 而 该 Lock 对 象 的 存储 单元 “看 上 去 ”就 好 像 临界 区 是 空 的 (也 就 是 说 ， 这 些 存 储 单元 
的 状态 就 像 是 有 既 没 有 线程 在 临界 区 内 也 没有 线程 正在 尝试 进入 临界 区 ) 。 

在 覆盖 状态 中 ， 称 一 个 线程 履 盖 它 将 要 写 的 存储 单元 。 

定理 2.8.1 任意 采用 读 / 写 存储 器 方式 解决 3 线程 无 死 锁 互 斤 的 Lock 算 法 必须 至 少 使 用 3 个 
不 同 的 存储 单元 。 

证 明 采用 反 证 法 ,假设 存在 一 种 只 使 用 两 个 存储 单元 解决 3 线程 无 死 锁 的 Lock 算 法 。 在 
初始 状态 s 中 ， 没 有 任何 线程 处 于 临界 区 内 或 正在 试图 进入 临界 区 。 若 有 一 个 线程 在 运行 ， 那 
么 在 进入 临界 区 前 该 线程 必须 至 少 要 写 一 个 存储 单元 ， 否 则 ，s 是 一 个 不 一 致 状态 。 

由 此 推出 ， 每 个 线程 在 进入 临界 区 前 都 必须 至 少 写 一 个 存储 单元 。 若 共享 存储 单元 都 是 
类 似 于 Bakery 锁 的 单 写 者 存储 单元 ， 那 么 显然 需要 3 个 不 同 的 存储 单元 。 

现在 考虑 类 似 于 Peterson 算 法 (图 2-6) 中 victim 那 样 的 多 写 者 存储 单元 的 情况 。 令 "是 一 
个 覆盖 的 Lock 状 态 ， 其 中 4 和 B 分 别 覆 盖 不 同 的 存储 单元 。 考 虑 从 状态 * 开 始 的 下 面 这 种 可 能 的 
执行 情形 ， 如 图 2-13 所 示 : 

让 C 单 独 运行 。 由 于 该 Lock 算 法 满足 无 死 锁 特性 ，C 将 最 终 进入 临界 区 。 然 后 ， 让 A 

和 8B 分别 修 改 它们 覆盖 的 存储 单元 ， 使 该 Lock 对 象 处 于 状态 s' 中 。 














假设 只 有 两 个 存储 单元 


2.C 运 行 ， 它 可 能 写 所 有 








的 存储 单元 并 进入 临界 
区 
3. 运 行 其 他 线程 4 和 B。 
它们 重 写 C 所 写 的 存储 
单元 ， 且 其 中 之 一 必 进 
入 临界 区 一 一 矛盾 
CS CS 


图 2-13 对 于 两 个 存储 单元 使 用 覆盖 状态 导致 矛盾。 初始 状态 下 两 个 存储 单元 均 为 空 值 上 


由 于 没有 线程 能 够 判断 C 是 否 在 临界 区 中 ， 所 以 状态 s' 是 非 一 致 的 。 因 此 ， 不 可 能 有 一 个 
仅 有 两 个 存储 单元 的 锁 。 
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接 下 来 的 问题 是 如 何 设法 使 得 线程 4 和 B 进 入 覆盖 状态 。 考 虑 一 种 B 三 次 通过 临界 区 的 执 
行情 形 。 每 一 次 通过 时 ，B 必 须 写 某 个 存储 单元 ， 所 以 考虑 它 在 试图 进入 临界 区 时 写 的 第 一 个 
单元 。 由 于 只 有 两 个 存储 单元 ，B 必 定 对 某 个 单元 写 了 两 次 。 称 这 个 单元 为 La。 

让 8 一 直 运 行 直到 它 准备 第 一 次 写 单元 Ls。 若 A 现在 正在 运行 ， 则 由 于 8B 还 没有 写 任 何 信 息 ， 
因此 A 将 进入 临界 区 。A 必 须 在 进入 临界 区 之 前 写 。 否 则 ， 如 果 A 只 写 Ls， 则 使 得 4 进入 临界 区 ， 
BEL, ( 冲 掉 A 最 后 一 次 写 的 内 容 )， 结 果 将 是 一 个 不 一 致 状态 ，B 不 能 判断 4 是 否 在 临界 区 内 。 

让 4 一 直 运 行 直到 它 第 一 次 写 L4 单 元 。 这 个 状态 不 是 一 个 覆盖 状态 ， 因 为 4 可 能 已 经 对 Ls 
写 了 某 些 信息 以 提示 线程 C 它 要 进入 临界 区 。 让 B 运 行 ， 冲 掉 A 向 Ls 写 入 的 所 有 内 容 ， 最 多 三 
次 进出 临界 区 ， 且 恰好 在 第 二 次 写 Ls 前 暂停 。 注 意 ， 每 次 B 进 入 和 离开 临界 区 ， 它 向 存储 单元 
写 的 任何 信息 都 不 再 有 关系 。 

在 这 种 状态 下 ，A4 准 备 写 L4，B 准 备 写 Ls， 并 且 存 储 单元 是 一 致 的 (没有 线程 正在 进入 或 
正 处 于 临界 区 内 )， 正 如 覆盖 状态 所 需 的 那样 。 图 2-14 描 述 了 这 个 场景 。 














1. 从 Ls 的 覆盖 状态 
开始 


2. 运行 系统 ， 直 到 4 打算 写 
L4。 必 定 是 这 样 的 情形 ， 
否则 让 4 进入 临界 区 ， 且 有 
能 重 写 它 的 值 。 但 是 ，A 
可 能 在 Ls 中 留 下 踪迹 …… 


3. 再 次 运行 B8。 它 清除 
Ls 中 的 踪迹 ， 然 后 让 
它 进 入 临界 区 并 再 次 

回 。 如 果 重 复 这 一 

模式 两 次 以 上 ，B 必 

将 返回 到 相同 存储 单 

CS CS 元 (该 图 中 为 Ls) 的 

覆盖 状态 


图 2-14 到 达 了 一 个 覆盖 状态 。 在 Ls 的 初始 覆盖 状态 下 ， 两 个 存储 单元 均 为 空 值 


以 上 证 明 可 以 推广 到 n 线 程 ，n 线 程 的 无 死 锁 互 尺 算法 需要 n 个 不 同 的 存储 单元 。 因 此 ， 
Peterson 和 Bakery 锁 也 是 最 优 的 〈 在 不 变 因素 下 ) 。 然 而 ， 正 如 我 们 所 知道 的 ， 为 每 个 Lock 分 
配 n 个 存储 单元 是 不 实际 的 。 

该 证 明说 明 读 / 写 操作 所 固有 的 限制 : 一 个 线程 所 写 的 信息 可 能 在 没有 被 其 他 线程 读 取 之 
前 又 被 重 写 了 。 在 接 下 来 的 其 他 算法 设计 中 要 记 住 这 个 限制 。 

在 后 面 的 章节 中 ， 我 们 将 会 看 到 现代 计算 机 系统 结构 提供 了 特殊 的 指令 来 克服 读 / 写 指 令 
的 “ 重 写 ”限制 ， 允 许 n 线 程 锁 的 实现 使 用 固定 数量 的 存储 单元 。 同 时 也 将 看 到 有 效 地 利用 这 
些 指令 来 解决 互 斥 问题 并 不 是 一 件 烦 琐 的 事 。 


2.9 本 章 注释 


牛顿 关于 时 间 流 动 性 的 概念 出 自 他 所 撰写 的 著名 的 《原理 》[121] 一 书 。 形 式 化 的 “一 ” 
归功 于 Leslie Lamport[89]。 本 章 的 前 三 个 算法 归功 于 Gary Peterson， 他 在 1981 年 发 表 的 一 篇 
两 页 纸 的 文章 [124] 中 提出 了 这 些 算法 。 本 章 介 绍 的 Bakery 锁 是 Leslie Lamport[88] 所 提出 的 
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Bakery 算 法 的 一 种 简化 版 本 。 串 行 时 间 惟 算法 来 自 Amos Israeli 和 Ming Li[77], 他 们 提出 了 有 
Filth le] MA GENIE, Danny Dolev 和 Nir Shavit[34] 开 发 了 第 一 个 并 发 有 界 时 间 戳 系统。 其 他 
的 有 界 时 间 惟 系统 方案 包括 Sibsankar Haldar 和 Paul Vitányi[51], Cynthia Dwork 和 Orli 
Waarts[37]。 锁 中 域 的 数量 的 下 界 由 Jim Burns 和 Nancy Lynch[23] 提 出 ， 他 们 的 验证 方法 一 一 
覆盖 证 明 ， 被 广泛 地 用 于 分 布 式 计算 中 下 界 的 证 明 。 有 兴趣 的 读者 可 以 在 Michel Raynal[131] 
的 经 典 著 作 中 找到 更 多 关于 互 斥 算法 的 历史 资料 。 


2.10 习题 


习题 9. 对 于 一 个 给 定 的 互 斥 算法 ， 定 义 r- 有 界 等 待 为 : 如 果 太 一 Di， 则 CSi 一 CSt*r'。 是 否 存 在 一 
种 定义 Peterson 算 法 门廊 的 方法 ， 使 得 对 于 某 个 值 7， 该 算法 能 够 支持 ~ 有 界 等 待 ? 

习题 10. 为 什么 需要 定义 门廊 区 ? 为 什么 不 能 在 基于 1ock( ) 方 法 中 第 一 条 指令 被 执行 的 次 序 的 互 斥 
算法 中 定义 先 来 先 服务 (FCFS) ? 根据 lock( ) 方 法 执行 第 一 条 指令 的 方式 -对 不 同 单元 或 相 
同 单元 的 读 和 写 ， 逐 一 地 证 明 你 的 结论 。 








习题 11. Flaky 计 算 机 公司 的 程序 员 设计 了 一 个 如 Te teeth i 
图 2-15 所 示 的 协议 ， 以 保证 n 线 程 的 互 斥 。 对 于 以 3 m votaan busy = false; 
下 每 个 问题 ， 或 证 明 其 成 立 ， 或 给 出 一 个 反例 。 a teen Sh A 
* 该 协议 满足 互 斥 特性 吗 ? 5 do 

0 
* 该 协议 是 无 饥饿 的 吗 ? A N 
e 该 协议 是 无 死 锁 的 吗 ? 9 l while (busy); 
= t 3 

习题 12. 证 明 过 滤 锁 克 许 某 些 线程 任意 次 数 地 超过 其 e (i 

他 线程。 12 o) 


N 13 public void unlock() { 
习题 13. 双 线 程 Peterson 锁 的 一 种 改进 方案 就 是 在 _ 棵 ‘a ieee ia 
} 


二 叉 树 中 排列 一 系列 双 线 程 Peterson 锁 。 假 设 z 为 2 15 
的 寡 。 为 每 一 个 线程 指定 一 个 叶子 锁 ， 该 锁 可 以 由 
男 一 个 线程 共享 。 每 个 锁 将 共享 自己 的 两 个 线程 视 图 2-15 习题 11 的 Flaky 锁 
为 线程 0 和 线程 1。 

在 树 一 锁 请 求 中 , 线程 依次 获得 从 该 线程 对 应 的 叶子 直到 树 根 的 所 有 双 线 程 Peterson 锁 。 在 
树 一 锁 释放 中 ， 从 二 又 树 的 根 直 到 叶子 释放 该 线程 已 获得 的 每 个 双 线 程 Peterson 锁 。 在 任何 时 候 ， 
一 个 线程 都 可 能 被 延迟 一 段 有 限 的 时 间 。( 换 旬 话 说 ， 线 程 可 以 打 个 肺 ， 甚至 可 以 放 个 假 ， 但 它 
们 始终 不 会 死 掉 。) 对 于 下 述 每 种 特性 ， 或 证 明 扩展 锁 能 保持 这 种 特性 ， 或 给 出 一 个 执行 反例 
(可 能 是 无 限 的 ) 说 明 它 不 具备 该 特性 。 
1. 互 斥 。 
2. 无 死 锁 。 
3. 无 饥饿 。 

从 一 个 线程 开始 请 求 树 一 锁 直 到 成 功 获得 树 - 锁 这 一 时 间 段 内 ， 树 一 锁 被 请 求 和 释放 的 次 数 
是 否 存在 上 界 ? 

习题 14. 2 - 互 斥 是 无 饥饿 互 斥 的 一 种 演变 。 它 具有 如 下 两 个 变化 ， 在 同一 时 刻 ， 可 能 有 8 个 线程 处 

于 临界 区 内 ， 在 临界 区 内 ， 可 能 有 小 于 8 个 线程 会 失败 HE), 

我 们 的 实现 必须 满足 下 列 条 件 : 

2 - 互 斥 : 任何 时 候 ， 至 多 有 8 个 线程 同时 处 于 临界 区 内 。 
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2 -无 饥 俄 : 只 要 处 于 临界 区 内 的 线程 个 数 少 于 8 ， 则 某 个 线程 想 要 进入 临界 区 ， 最 终 必 将 
成 功 〈 即 使 临界 区 内 的 某 些 线程 已 经 中 止 ) 。 

修改 a 进程 Filter 互 斥 算法 使 其 变 为 8- 互 斥 算法 。 

习题 15. 实际 应 用 中 ， 几 乎 所 有 的 锁 请 求 都 是 无 争 用 的 ， 因 此 衡量 锁 性 能 的 一 种 实用 标准 就 是 在 没 

有 其 他 线程 同时 请 求 锁 的 情况 下 ， 一 个 线程 获得 锁 所 需 的 操作 步 。 

Cantaloupe-Melon 大 学 的 科学 家 设计 了 针对 任意 锁 的 “包装 器 ”， 如 图 2-16 所 示 。 同 时 指出 ， 
如 采 基 本 的 Lock 类 具有 互 斥 和 无 饥 俄 特性 ， 那 么 FastPath 锁 也 具有 这 两 个 特性 ， 且 在 无 争 用 的 
情况 下 能 在 常数 步 内 获得 锁 。 试 论述 为 什么 他 们 的 结论 是 正确 的 ， 或 者 给 出 一 个 反例 。 








1 class FastPath implements Lock { 

2 private static ThreadLocal<Integer> myIndex; 

3 private Lock lock; 

4 private int x, y = -1; 

5 public void lock() { 

6 int i = myIndex.get(); 

7 x= j; // I'm here 

8 while (y != -1) {} // is the lock free? 
9 y= 1g // me again? 

10 if (x != i) // Am I still here? 
11 lock. lock(); // slow path 

12 } 

13 public void unlock() { 

14 y= al; 

15 Tock.unlock(); 








16 } 
17 } = 
图 2-16 习题 15 的 FastPath 互 斥 算法 
习题 16. 假设 n 个 线程 调用 图 2-17 所 示 Bouncer 类 的 visit() 方 法 。 证明: 








1 class Bouncer { 

2 public static final int DOWN = 0; 

3 public static final int RIGHT = 1; 

4 public static final int STOP = 2; 

5 private boolean goRight = false; 

6 private ThreadLocal<Integer> myIndex; // initialize my Index 
7 private int last = -1; 
8 int visit() { 








9 int i = myIndex.get(); 
10 last = i; 
11 if (goRight) 
12 return RIGHT; 
13 goRight = true; 
14 if (last == i) 
15 return STOP; 
16 else 
17 return DOWN; 
18 
| 19 } _| 





图 2-17 Bouncer 类 的 实现 


。 最 多 只 有 一 个 线程 获得 值 STOP 。 
。 最 多 有 nn 一 1 个 线程 获得 值 DOWN。 
。 最 多 有 "一 1 个 线程 获得 值 RIGHT。 
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注意 ， 后 两 个 证 明 并 不 是 对 称 的 。 

习题 17. 到 目前 为 止 ， 我 们 假设 ?个 线程 都 具有 唯一 的 小 标识 码 。 下 面 是 一 种 给 线程 指定 唯一 小 标 
识 码 的 方法 。 在 一 个 三 角 和 矩阵 中 排列 Bouncer 对 象 ， 每 个 Bouncer 对 象 有 一 个 如 图 2-18 所 示 的 id。 
每 个 线程 都 从 访问 Bouncer 0 开始 。 如果 它 得 到 STOP, 则 停止 。 
如 果 它 得 到 RIGHT， 则 访问 1， 如 果 它 得 到 DOWN， 就 访问 2。 
通常 情形 下 ， 如 果 某 个 线程 得 到 STOP ， 则 停止 。 如 果 得 到 
RIGHT， 则 访问 同一 行 中 的 下 一 个 Bouncer ， 如 果 得 到 DOWN， 
就 访问 同一 列 中 的 下 一 个 Bouncer 。 每 个 线程 都 获得 它 停 目 
时 的 那个 Bouncer 对 象 的 id。 
* 证 明 每 个 线程 最 终 都 将 停 在 某 个 Bouncer 对 象 上 。 
。 若 事先 知道 总 的 线程 数 上 上， 那么 数组 中 需要 多 少 个 Bouncer 
对 象 ? 

习题 18. 试 举 反例 证 明 ， 对 于 串 行 时 间 改 系统 到 ， 若 从 一 个 有 效 的 初始 状态 (1abe1 之 间 没 有 闭环 ) 
开始 ， 该 系统 并 不 支持 3 个 线程 并 发 地 工作 。 注 意 ， 可 以 有 两 个 相同 的 1abe1 ， 因 为 可 以 用 线程 
ID 来 破坏 这 种 联系 。 所 举 的 反例 中 需要 给 出 一 种 三 个 labe1 之 间 不 满足 全 序 关系 的 执行 状态 。 

习题 19. 串 行 时 间 惟 系统 到 具 有 3" 个 可 能 的 不 同 1abe1 值 。 试 设计 一 个 只 需 z2" 个 1abe1 的 串 行 时 间 
惟 系 统 。 注 意 ， 在 一 个 时 间 惟 系统 中 ， 线 程 可 以 查看 所 有 的 1abe1 来 选择 一 个 新 的 1abe1， 然 而 
一 旦 这 个 1abe1 被 选 定 ， 那 么 它 不 用 知道 系统 中 其 他 的 1abe1 是 什么 就 可 以 与 它们 相 比 较 。 提 示 : 
考虑 1abe1 的 位 表示 法 。 

习题 20. 采用 无 界 1abe1， 给 出 图 2-10 所 示 Timestamp 接 口 的 Java 代 码 。 然 后， 说 明 如 何 使 用 你 的 

Timestamp Java 代 码 来 替换 图 2-9 中 Bakery 锁 的 伪 代 码 [82]。 








图 2-18 Bouncer 对 象 的 数组 布局 
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并 发 对 象 的 行为 能 够 用 它们 的 安全 性 和 活性 有 效 地 进行 描述 ， 通 常 称 为 正确 性 和 演进 性 。 
本 章 讲述 并 发 对 象 正确 性 和 演进 性 的 相关 概念 及 其 定义 。 

虽然 并 发 对 象 的 正确 性 基于 某 种 与 顺序 行为 等 价 的 概念 ， 然 而 ， 不 同 的 概念 适用 于 不 同 的 
系统 。 考 虑 下 面 三 种 正确 性 条 件 。 静 态 一 致 性 适用 于 以 相对 较 弱 的 对 象 行为 约束 代价 获得 高 性 
能 的 应 用 。 顺 序 一 致 性 是 一 种 较 强 的 约束 限制 ， 通 常用 于 描述 类 似 于 硬件 存储 器 接口 这 样 的 底 
层 系 统 。 可 线性 化 特性 是 一 种 更 强 的 约束 ， 适 用 于 描述 由 可 线性 化 组 件 构成 的 高 层 系统 。 

在 正确 性 保障 的 多 个 空间 维 上 ， 方法 的 不 同 实现 提供 了 各 种 不 同 的 演进 保障 。 有 些 是 可 
阻塞 的 ， 即 任 一 线程 的 延迟 能 够 延迟 其 他 的 线程 ， 有 些 则 是 非 阻塞 的 ， 即 一 个 线程 的 延迟 不 
能 延迟 其 他 的 线程 。 


3.1 并 发 性 与 正确 性 


并 发 对 象 的 正确 性 究竟 指 的 是 什么 呢 ” 图 3-1 描 述 了 一 种 简单 的 基于 锁 的 先进 先 出 (FIFO) 
并 发 队列 。 其 中 ，enq() 和 deq( ) 方 法 采用 了 第 2 章 介 绍 的 互 斥 锁 来 获得 同步 。 不 难看 出 这 样 的 
实现 是 一 个 正确 的 并 发 FIFO 队 列 。 因 为 每 个 方法 在 访问 和 修改 域 时 都 持 有 互 斥 锁 ， 所 以 这 种 
方法 调用 能 够 获得 顺序 的 执行 效果 。 

图 3-2 描 述 了 这 种 队列 实现 的 思想 。 图 中 展示 了 这 样 一 种 执行 场景 : 4 使 元 素 4 入 队 ，B 使 
元 素 bp 入 队 ，C 做 了 两 次 出 队 操 作 ， 第 一 次 抛 出 空 异常 EmptyException， 第 二 次 返回 bp。 重 释 
区 间 表 示 并 发 的 方法 调用 。 三 个 方法 调用 在 时 间 上 相互 重合 。 在 这 个 图 示 中 ， 时 间 从 左 向 右 
移动 ， 黑 线 代表 时 间 间 隔 。 单 个 线程 的 时 间 间 隔 沿 着 一 条 单 水 平 线 来 描述 。 为 方便 起 见 ， 线 
程 的 名 字 标 记 在 水 平 线 的 左 侧 。 一 个 栅栏 表示 一 段 具 有 固定 起 始 时 间 和 停止 时 间 的 时 间 间 隔 。 
右 侧 为 虚线 的 栅栏 表示 具有 固定 起 始 时 间 和 不 确定 停止 时 间 的 时 间 间 隔 。 符 号 “gq.enq(x)” 表 
示 线 程 使 元 素 x 在 对 象 9 中 入 队 ,“gq.deq(x)” 则 表示 线程 使 x* 从 对 象 9 中 出 队 。 

时 间 线 说 明 哪 个 线程 持 有 锁 。 在 图 3-2 中 ，C 首 先 获得 锁 ， 发 现 队 列 为 空 ， 于 是 抛 出 一 个 异 
常 并 释放 锁 。C 不 修改 队列 。 接 着 B 获 得 锁 ， 向 数组 中 插入 b 然 后 释放 锁 。 接 下 来 4 获得 锁 ， 向 数 
组 中 插入 a 然后 释放 锁 。C 再 次 获得 锁 ， 使 出 队 ， 释 放 锁 并 且 返 回 。 所 有 调用 的 执行 产生 了 一 
种 顺序 的 执行 效果 ， 并 且 很 容易 验证 b 先 于 a 出 队 ， 这 与 通常 的 顺序 FIFO 队 列 的 行为 是 一 致 的 。 

图 3-3 给 出 了 并 发 队列 的 另 一 种 实现 (该 队列 仅 在 单 入 队 者 和 单 出 队 者 共享 使 用 时 才能 
确 地 工作 )。 它 的 时 间 间 隔 描 述 与 图 3-1 基 于 锁 的 队列 几乎 相同 。 唯 一 的 区 别 是 没有 锁 。 可 以 
认为 这 种 单 人 队 者 / 单 出 队 者 FIFO 队 列 的 实现 是 正确 的 ， 虽 然 解释 其 理由 不 再 那么 容易 ， 甚 至 
当 入 队 者 和 出 队 者 并 发 时 ， 一 个 队列 是 FIFO 的 到 底 意味 着 什么 也 并 不 是 十 分 清楚 。 

Z, Amdahl tE (第 1 章 ) 已 指出 ， 持 有 互 斥 锁 的 并 发 对 象 (因此 也 是 一 个 接 一 个 地 有 
效 执行 ) 不 如 具有 细 粒 度 锁 或 根本 没有 锁 的 对 象 令 人 满意 。 因 此 ， 我 们 需要 一 种 不 依赖 于 在 
方法 层次 上 加 锁 的 方式 ， 来 规范 并 发 对 象 的 行为 以 及 分 析 它 们 的 实现 过 程 。 尽 管 如 此 ， 上 述 
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图 3-1 


图 3-2 













1 class LockBasedQueue<T> { 

2 int head, tail; 

3 TD items; 

4 Lock lock; 

5 public LockBasedQueue(int capacity) { 
6 head = 0; tail = 0; 

7 lock = new ReentrantLock(); 

8 items = (T[])new Object[capacity]; 
9 } 

10 public void enq(T x) throws FullException { 
11 lock. lock(); 

12 try { 

13 if (tail - head == items.length) 
14 throw new FullException(); 

15 items[tail % items.length] = x; 
16 tail++; 

17 } finally { 

18 lock.unlock(); 

19 } 
20} 
21 public T deq() throws EmptyException { 
22 lock. lock(); 












23 try { 

24 if (tail == head) 

25 throw new EmptyException(); 

26 T x = items[head % items.length]; 
27 headt++; 

28 return x; 

29 } finally { 





lock.unlock(); 





基于 锁 的 先进 先 出 队列 。 队 列 元 素 存储 在 数组 items 中 ，head 是 下 一 个 出 队 元 素 的 
索引 号 ，tai1 是 第 一 个 空 数组 槽 〈 以 capacity 为 模 ) 的 索引 号 。1ock 域 是 保证 方法 
互 斥 执行 的 锁 。 初 始 状态 下 head 和 tai1 均 为 0， 队 列 为 空 。 若 enq( ) 发 现 队 列 已 满 ， 
也 就 是 head 和 tai1 相 差 一 个 队列 长 度 ， 那 么 它 将 抛 出 一 个 异常 。 否 则 ， 仍 有 空闲 
空间 ，enq() 则 在 数组 入 口 tai1 处 存 和 元素 ， 并 使 tai1 增 加 1。deq( ) 方 法 按照 对 称 
的 方式 工作 


q.enq(a) 
lock() enq(a) unlock() 
A p ee > 
g.enq(b) 
lock() enq(b) uniock() 
B ------- ee Le > 
: q.deq(b) ; 
lock()  unlock() ， 1 lock() ! | deq(b) unlock() 
OC pt + - ; t -> 
锁 持 有 者 E E OER SEEE EET E ves ———— N 5 
时 间 线 C B A C 
deq(empty) enq(b) enq(a) deq(b) 


锁 队 列 的 执行 过 程 。C 首 先 获 得 锁 ， 发 现 队列 为 空 ， 抛 出 一 个 异常 并 释放 锁 。 然 后 
B 获 得 锁 ， 向 数组 中 插入 5b 然 后 释放 锁 。 接 下 来 4 获得 锁 ， 向 数组 中 插入 a 然后 释放 
锁 。C 再 次 获得 锁 ， 使 出 队 ， 释 放 锁 并 且 返 回 
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基于 锁 的 例子 仍然 阐述 了 一 个 很 有 用 的 原则 : 如 果 能 将 并 发 执行 转换 为 顺序 执行 ， 则 只 需 对 
该 顺序 执行 进行 分 析 ， 从 而 简化 了 并 发 对 象 的 分 析 。 这 条 原则 也 正 是 本 章 关 于 正确 性 的 关键 
准则 。 








1 class WaitFreeQueue<T> { 

2 volatile int head = 0, tail = 0; 

3 T[] items; 

4 public WaitFreeQueue(int capacity) { 

5 items = (T[]) new Object[capacity]; 
6 } 

7 public void enq(T x) throws FullException { 
8 if (tail - head == items. length) 

9 throw new FullException(); 

10 items[tail % items.length] = x; 

11 tailt++; 

12 } 

13 public T deq() throws EmptyException { 
14 if (tail - head == 0) 

15 throw new EmptyException(); 

16 T x = items[head % items.length] ; 

17 head++; 

18 return x; 

19 } 

20 } 





区 og ee ee ee eee 
图 3-3 单 入 队 者 / 单 出 队 者 FIFO 队 列 。 在 这 个 构造 中 ， 除 了 不 需要 使 用 锁 机 制 来 协调 访问 
以 外 ， 其 他 均 与 基于 锁 的 FIFO 队 列 相同 


3.2 顺序 对 象 


在 Java 和 C++ 等 语言 ,对象 就 是 一 个 包含 有 数据 的 容器 。 每 个 对 象 都 提供 一 系列 的 方法 ， 
只 有 通过 这 些 方法 才能 对 该 对 象 进行 操作 。 每 个 对 象 都 有 一 个 类 ， 类 定义 了 对 象 的 方法 以 及 
方法 的 行为 。 每 个 对 象 都 具有 良 构 的 状态 (例如 ，FIFO 队 列 的 当前 元 素 序列 )。 有 多 种 可 以 描 
述 对 象 方法 行为 的 方式 ， 从 直观 的 自然 语言 直到 抽象 的 形式 化 定义 。 我 们 经 常用 到 的 应 用 程 
序 接口 (API) 文档 是 处 于 它们 中 间 的 一 种 方式 。 

API 文 档 的 内 容 一 般 如 下 : 若 调用 方法 之 前 对 象 处 于 某 个 状态 ， 则 调用 返回 时 将 处 于 另外 
的 某 个 状态 ， 该 调用 会 返回 某 个 特定 的 值 或 抛 出 一 个 特定 的 异常 。 显 然 ， 这 种 描述 可 分 为 前 
RAH (描述 对 象 在 方法 调用 前 的 状态 ) MEERA (描述 调用 返回 时 对 象 的 状态 及 其 返回 
值 )。 对 象 状态 的 变化 有 时 称 为 副作用 。 例 如 ， 考 虑 如 何 来 描述 一 个 先进 先 出 (FIFO) 队列 的 
类 。 该 类 提供 了 两 个 方法 : enq() 和 deq( )。 队 列 的 状态 就 是 其 中 元 素 的 序列 ， 可 以 为 空 。 如 
果 队 列 状态 为 序列 g (前 置 条 件 )， 那 么 enq(z) 调用 将 使 队列 的 状态 变 为 4 * z， FH” R 
示 级 联 。 如 果 队 列 对 象 不 为 空 (前 置 条 件 )， 记 作 a . 4， 那 么 deq( ) 方 法 将 移出 并 返回 队列 中 
的 第 一 个 元 素 a (后 置 条 件 ) ， 同 时 使 队列 的 状态 变 为 9 〈 副 作用) 。 反 之 ， 如 果 队 列 对 象 为 空 
(前 置 条 件 )，deq( ) 方 法 将 抛 出 EmptyException 异 常 并 保持 队列 状态 不 变 〈 后 置 条 件 ) 。 

这 种 说 明文 档 称 为 顺序 规范 ， 是 一 种 常用 的 方法 ， 它 具有 简单 明了 、 功 能 强大 的 特点 。 
由 于 每 个 方法 需要 单独 描述 ， 因 此 对 象 文档 的 长 度 与 方法 的 个 数 呈 线性 关系 。 在 各 个 方法 之 
间 存 在 着 大 量 可 能 的 交互 ， 所 有 这 些 交互 都 可 以 通过 方法 在 对 象 状 态 上 的 副作用 来 刻画 。 对 
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象 的 说 明文 档 描述 了 每 次 方法 调用 前 后 的 对 象 状态 ， 但 是 忽略 了 在 方法 调用 执行 过 程 中 对 象 
可 能 出 现 的 中 间 状 态 。 

在 由 单线 程 对 一 组 对 象 进行 操作 的 顺序 计算 模型 中 ， 采 用 前 置 条 件 和 后 置 条 件 来 定义 对 
象 是 非常 有 效 的 。 然 而 ， 对 于 多 线程 共享 的 对 象 ， 这 种 常用 的 有 效 文档 并 不 适用 。 若 一 个 对 
象 的 方法 可 以 被 并 发 线程 调用 ， 那 么 这 些 调 用 在 时 间 上 可 以 相互 重 倒 ， 讨 论 它们 之 间 的 调用 
顺序 就 不 再 有 意义 了 。 在 一 个 多 线程 程序 中 ， 若 x* 和 y 在 重 又 的 时 间 间 隔 中 都 要 从 一 个 FIFO 队 
列 中 出 队 ， 这 将 意味 着 什么 呢 ? 哪 一 个 会 先 出 队 ? 能 否 继续 采用 前 置 /后 置 条 件 独 立地 描述 每 
个 方法 ， 或 者 是 否 必须 对 并 发 调用 之 间 的 各 种 可 能 的 交互 情形 都 提供 显 式 描述 呢 ? 

甚至 对 象 的 状态 这 一 概念 也 会 变 得 模糊 不 清 。 在 单线 程 程序 中 ， 必 须 假 定 对 象 在 方法 调 
用 之 间 存 在 着 一 个 有 意义 的 状态 。 然而 对 于 并 发 对 象 ， 重 到 的 方法 调用 可 能 时 刻 都 在 进 
行 ， 因 此 对 象 有 可 能 根本 不 会 处 于 方法 调用 之 间 的 某 个 状态 。 每 个 方法 调用 都 可 能 面 对 着 
一 种 由 其 他 的 并 发 方法 调用 所 产生 的 不 完整 效果 的 对 象 状 态 ， 这 个 问题 在 单线 程 程序 中 显 
然 不 会 发 生 。 


3.3 静态 一 致 性 


要 直观 地 了 解 并 发 对 象 的 执行 行为 ， 可 以 考察 一 些 包 含有 简单 对 象 的 并 发 计算 实例 ， 分 
析 它 们 在 各 种 情形 下 的 行为 是 否 和 我 们 直觉 上 所 预想 的 并 发 对 象 的 行为 相 一 致 。 

方法 的 调用 需要 时 间 。 方 法 调用 是 一 段 时 间 间 隔 ， 从 调用 事件 开始 直到 响应 事件 结束 。 
并 发 线程 的 方法 调用 可 以 相互 重 倒 ， 而 单线 程 的 方法 调用 总 是 顺序 的 (无 重叠 ， 一 个 接 一 
个 地 ) 。 如 果 一 个 方法 的 调用 事件 已 发 生 ， 但 其 响应 事件 还 未 发 生 ， 则 称 这 个 方法 调用 是 未 
决 的 。 

出 于 一 些 历史 上 的 原因 ， 通 常 将 基于 读 / 写 方式 存储 单元 的 对 象 版 本 称 作 和 寄存 器 ( 见 第 4 
章 )。 在 图 3-4 中 ， 两 个 线程 并 发 地 向 共享 寄存 器 r 写 入 一 3 和 7 (如 前 所 述 ，“r.read(x)” 表 示 线 
程 从 寄存 器 r 中 读 x, “7.writeCo)” 表 示 线 程 向 寄存 器 r 中 写 x) 。 随 后 ， 一 个 线程 读 r 并 返回 值 -7。 
这 显然 是 不 能 接受 的 。 我 们 希望 寄存 器 中 不 是 7 就 是 -3， 而 不 是 两 者 的 混合 。 这 个 例子 阐述 了 
如 下 原则 : 

原则 3.3.1 方法 调用 应 呈现 出 以 某 种 顺序 次 序 执行 且 每 个 时 刻 只 有 一 个 调用 发 生 。 

由 于 这 个 原则 本 身 太 弱 ， 所 以 在 实际 中 并 不 实用 。 例 如 ， 它 允许 读 操作 总 是 返回 对 象 的 
初始 状态 ， 即 使 在 顺序 执行 中 也 是 如 此 。 


r.write(7) 
线程 A -------- fem ee > 
r.write(—3) r.read(—7) 
线程 中 ------------- — - ----- J- - ~ - -~ ~- ~ ~ ~ ~ ~- ~ > 





图 3-4 为 什么 每 个 方法 调用 应 该 呈现 出 具有 瞬间 发 生 的 效果 ? 两 个 线程 并 发 地 对 共享 寄 
存 器 r 写 入 -3 和 7。 随 后 ， 一 个 线程 读 r 并 返回 了 一 7。 我 们 希望 寄存 器 中 不 是 7 就 
是 -3， 而 不 是 两 者 的 混合 


O ”存在 一 个 例外 : 当 一 个 方法 部 分 改变 了 对 象 的 状态 ， 然 后 调用 该 对 象 的 另 一 个 方法 时 ， 必 须 引 起 注意 。 
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下 面 是 一 个 稍 强 的 约束 条 件 。 若 一 个 对 象 中 不 存在 未 决 的 方法 调用 ， 则 该 对 象 是 静态 的 。 

原则 3.3.2 由 一 系列 静止 状态 分 隔 开 的 方法 调用 应 呈现 出 与 按照 它们 的 实时 调用 次 序 相 
同 的 执行 效果 。 

例如 ， 假 设 对 于 一 个 FIFO 队 列 ，A 和 B 并 发 地 将 x* 和 y 入 队 。 然 后 队列 变 为 静态 的 ，C 再 使 : 
入 队 。 队 列 中 x 和 y 的 相对 次 序 可 能 无 法 确定 ， 但 可 以 肯定 它们 都 在 z 的 前 面 。 

总 的 来 说 ， 原 则 3.3.1 和 3.3.2 定 义 了 一 种 正确 性 特性 ， 称 为 静态 一 致 性 。 非 形式 化 地 来 说 ， 
静态 一 致 性 是 指 在 任 一 时 刻 车 对 象 变 为 静态 的 ， 那 么 到 此 刻 为 止 的 执行 等 价 于 目前 已 完成 的 
所 有 方法 调用 的 某 种 顺序 执行 。 

以 第 1 章 中 的 共享 计数 器 作为 一 个 静态 一 致 性 对 象 的 例子 。 静 态 一 致 的 共享 计数 器 应 该 返 
回 整数 数字 ， 虽 然 不 必 按 照 getAndIncrement( ) 的 调用 次 序 ， 但 是 不 允许 出 现任 何 数字 的 重 
复 和 遗漏 。 静 态 一 致 对 象 的 执行 就 好 像 抢 座位 游戏 一 样 : 任何 时 刻 ， 音 乐 都 可 能 停止 ， 即 状 
态 变 为 静态 的 ， 在 音乐 停止 的 瞬间 ， 每 一 个 未 决 的 方法 调用 都 必须 返回 一 个 索引 ， 所 有 索引 
一 起 来 满足 顺序 计数 器 的 说 明 规范 ， 保 证 没有 重复 或 者 遗漏 的 数字 。 换 言 之 ， 静 态 一 致 的 计 
数 器 是 一 个 索引 分 发 机 制 ， 类 似 于 程序 中 的 “循环 计数 器 ”， 但 不 用 考虑 索引 分 发 的 次 序 。 


评析 


静态 一 致 性 对 并 发 性 的 限制 到 底 有 多 大 ? 具体 而 言 ， 也 就 是 说 在 什么 环境 下 静态 一 致 性 
会 使 得 一 个 方法 调用 阻塞 等 待 另 一 个 调用 完成 ? 令 人 不 可 思议 的 是 ， 答 案 (原则 上 ) 是 绝 不 
会 阻塞 。 如 果 一 个 方法 对 对 象 的 所 有 状态 都 给 出 了 定义 ， 则 称 该 方法 是 完全 的 ， 否 则 称 为 部 
分 的 。 例 如 ， 考 虑 下 面 这 种 针对 顺序 无 界 FIFO 队 列 的 规范 说 明 : 总 是 能 够 使 得 一 个 元 素 入 队 ， 
但 是 只 能 从 非 空 队列 中 出 队 。 在 这 个 FIFO 队 列 的 顺序 说 明 中 ，enq( ) 是 完全 的 ， 因 为 它 对 队列 
的 所 有 状态 都 定义 了 执行 效果 ， 而 deq( ) 则 是 部 分 的 ， 因 为 它 只 定义 了 非 空 队列 的 执行 效果 。 

在 并 发 执行 中 ， 对 于 完全 方法 的 任何 一 个 未 决 调用 ， 都 必定 存在 着 一 个 静态 一 致 的 响应 。 
该 结论 只 说 明正 确 性 条 件 本 身 在 这 种 方式 中 并 不 成 立 ， 而 没有 说 明 响应 的 具体 值 是 可 以 (或 


是 
解释 。 

对 于 正确 性 人， 如 果 系 统 中 每 个 对 象 都 满足 P ， 则 整个 系统 也 满足 刀 ， 那 么 刀 是 可 复合 
的 。 复 合 性 在 大 型 系统 中 十 分 重要 。 任 何 复杂 系统 都 是 采用 模块 方式 设计 和 实现 的 。 各 组 件 
都 是 独立 设计 、 实 现 以 及 证 明 其 正确 性 的 。 每 个 模块 都 将 功能 实现 (被 隐藏 的 ) 与 模块 接口 
(准确 地 表述 了 对 其 他 模块 提供 的 保证 ) 明确 地 区 分 开 来 。 例 如 ， 若 一 个 并 发 对 象 的 接口 声明 
它 是 一 个 顺序 一 致 的 FIFO 队 列 ， 那 么 该 队列 的 用 户 不 需要 知道 这 个 队列 是 如 何 实现 的 。 把 每 
个 在 接口 上 相互 依赖 的 正确 模块 组 合 起 来 ， 其 结果 应 该 是 一 个 正确 的 系统 。 事 实 上 ， 能 否 将 
一 组 单独 实现 的 静态 一 致 对 象 组 合 起 来 构造 一 个 静态 一 致 的 系统 呢 ? 答案 是 可 以 的 ， 即 静态 
一 致 性 是 可 复合 的 ， 所 以 能 够 用 静态 一 致 对 象 复合 构造 更 为 复杂 的 静态 一 致 对 象 。 


3.4 顺序 一 致 性 


在 图 3-5 中 ， 一 个 单线 程 先 后 向 共享 寄存 器 r 写 和 人 7 和 -3， 随 后 它 读 r 并 返回 了 7。 在 某 些 应 
用 中 并 不 接受 这 样 的 行为 ， 因 为 线程 读 的 值 并 不 是 它 最 近 写 入 的 值 。 一 个 单线 程 的 方法 调用 
次 序 称 为 该 线程 的 程序 次 序 。( 多 个 不 同 线程 的 方法 调用 与 程序 次 序 无 关 。) 
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r.write(7) r.write(—3) r.read(7) 
aias DE ee 
图 3-5 为 什么 方法 调用 应 该 呈现 出 按照 程序 次 序 执行 的 效果 ?因为 线程 读 的 值 不 是 最 近 
写 入 的 值 ， 所 以 这 种 行为 效果 是 不 可 接受 的 


在 这 个 例子 中 ， 操 作 的 调用 并 没有 按照 程序 次 序 执行 。 因 此 ， 这 个 实例 向 我 们 提出 了 另 
外 一 个 原则 : 

原则 3.4.1 方法 调用 应 该 呈现 出 按照 程序 次 序 调 用 的 执行 效果 。 

这 条 原则 保证 纯粹 的 顺序 计算 具有 我 们 所 期 望 的 行为 。 

原则 3.3.1 和 原则 3.4.1 定 义 了 一 种 正确 性 特性 ， 称 为 顺序 一 致 性 ， 该 特性 在 多 处 理 器 同步 
的 文献 中 被 广泛 地 使 用 。 

顺序 一 致 性 要 求 方法 调用 的 执行 行为 具有 按照 某 种 顺序 次 序 的 执行 效果 ， 并 且 这 种 顺序 
执行 的 次 序 应 该 与 程序 次 序 保 持 一 致 。 也 就 是 说 ， 在 任意 的 并 发 执行 中 ， 都 存在 着 一 种 办 法 

能 使 得 方法 调用 按照 某 种 顺序 次 序 排序 ， 并 且 这 种 顺序 次 序 (1) 与 程序 次 序 相 一 致 ，(2) 满 足 对 
象 的 顺序 规范 说 明 。 可 以 有 多 种 调用 次 序 满足 这 个 条 件 。 在 图 3.6 中 ， 线 程 A 和 8 分 别 同时 人 队 
x 和 y， 然 后 ，A 和 8B 分 别 同时 出 队 y 和 x。 有 两 种 可 能 的 顺序 次 序 说 明 它们 的 结果 (1) AABAx, 
BABA y，B 出 队 x，A 出 队 y; (2) B 入 队 y，A 入 队 x，A 出 队 y，B 出 队 x。 这 两 种 次 序 都 与 程序 次 
序 一致 ， 其 中 任意 一 种 都 足以 说 明 该 执行 是 顺序 一 致 的 。 


q.enq(x) q.deq(y) 
RE H- - =~ - - = = 
q.enq(y) q.deq(x) 
7 二 


图 3-6 有 两 种 可 能 的 顺序 次 序 能 够 验证 这 种 执行 。 两 种 次 序 都 与 方法 调用 的 程序 次 序 相 
一 致 ， 任 何 一 种 都 说 明 执行 是 顺序 一 致 的 


评析 

值得 注意 的 是 ， 顺 序 一 致 性 与 静态 一 致 性 之 间 是 不 可 比 的 : 存在 着 非 静 态 一 致 但 却 是 顺 
一 致 的 执行 ， 反 之 亦 然 。 静 态 一 致 性 中 不 需要 保持 程序 次 序 ， 而 顺序 一 致 性 也 不 受 静止 状 
态 周期 的 影响 。 

大 多 数 现代 的 多 处 理 器 系统 结构 中 ， 存 储 器 的 读 / 写 都 不 是 顺序 一 致 的 ， 这 些 读 / 写 操作 可 
以 通过 复杂 的 方式 重新 安排 。 大 多 数 时 候 无 法 察觉 ， 因 为 大 部 分 读 / 写 操作 并 不 是 作为 同步 操 
作 来 使 用 的 。 在 那些 程序 员 需 要 顺序 一 致 的 特殊 情形 中 ， 必 须 显 式 地 申请 。 这 种 系统 结构 提 
供 了 特殊 的 指令 (通常 称 作 内 存 路 障 或 内 存 栅 栏 )， 控 制 处 理 器 按照 需求 对 存储 器 传送 修改 ， 
保证 读 / 写 操作 正确 地 交互 ， 从 而 最 终 实现 指定 的 顺序 一 致 性 。3.8 节 将 进一步 讨论 与 顺序 一 致 
性 相关 的 问题 以 及 Java 程 序 设计 语言 的 详细 内 容 。 

在 图 3-7 中 ,线程 4 使 Y 入 队 ， 然 后 B 使 7 入 队 ， 最 后 4 使 y 出 队 。 这 个 执行 过 程 违反 了 直观 上 
理解 的 FIFO 队 列 行为 入 队 x 在 出 队 y 开 始 前 已 经 完成 ， 虽 然 y 后 于 * 入 队 ， 但 它 却 先 出 队 。 但 
是 ， 这 个 执行 过 程 却 是 顺序 一 致 的 。 虽 然 x* 的 入 队 调用 在 y 的 入 队 调用 之 前 发 生 ， 但 这 些 调用 
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按照 程序 次 序 是 相互 无 关 的 ， 所 以 顺序 一 致 性 与 它们 的 次 序 重 排 无 关 。 





qg.enq(x) q.deq(y) 
ca ee teen ee ~~~ eam a a 一- ~ ~ - - - - - - -一 - - 基 
q.enq(y) 
ed ee ee E 


图 3-7 顺序 一 致 性 与 实时 次 序 的 对 照 。 线 程 4 使 :入 队 ， 然 后 8B 使 > 入 队 ， 最 后 4 使 y 出 队 。 
这 个 执行 过 程 也 许 违反 了 直观 上 理解 的 FIFO 队 列 行为 ， 因 为 x 的 入 队 调 用 在 y 的 出 
队 调 用 开始 前 已 经 完成 ， 所 以 虽然 y 后 于 x 入 队 ， 但 它 还 是 先 出 队 。 尽 管 如 此 ， 这 
个 执行 过 程 仍 是 顺序 一 致 的 


那么 重 排 不 同 线程 的 彼此 不 重合 的 方法 调用 是 否 可 被 接受 呢 ? 举 个 例子 ， 如 果 你 在 星期 
一 存 和 工资， 但 是 由 于 银行 在 提 款 后 重 排 了 存款 的 顺序 ， 导 致 到 下 一 个 星期 五 才 退 出 租金 收 
据 ， 这 将 使 你 感到 非常 恼火 。 

顺序 一 致 性 和 静态 一 致 性 一 样 也 是 非 阻塞 的 对 完全 方法 的 任何 未 决 调用 总 是 能 够 完成 。 

顺序 一 致 性 是 否 可 复合 呢 ? 也 就 是 说 ， 由 多 个 顺序 一 致 对 象 组 合成 一 个 整体 是 否 也 具有 
顺序 一 致 的 特性 ? 很 不 幸 ， 答 案 是 否定 的 。 图 3-8 中 有 两 个 线程 4 和 8， 分 别 对 队列 对 象 p 和 o 调 
用 入 队 方 法 和 出 队 方法 。 不 难看 出 和 4 各 自 都 是 顺序 一 致 的 : p 的 方法 调用 序列 与 图 3-7 所 示 
的 顺序 一 致 执行 是 相同 的 ，4 的 行为 与 之 类 似 。 但 是 ， 将 它们 作为 一 个 整体 来 看 ， 其 执行 却 不 
是 顺序 一 致 的 。 





p.enq(x) q.enq(x) p.deq(y) 


q.enq(y) p.enq(y) q.deq(x) 
B --------------- je = = = = === = - penny = = = = 一 
图 3-8 顺序 一 致 性 是 不 可 复合 的 。 两 个 线程 4 和 B 分 别 对 队列 对 象 p 和 4 调用 入 队 方法 和 出 
队 方 法 。 不 难看 出 p 和 g 各 自 都 是 顺序 一 致 的 ， 然 而 作为 一 个 整体 其 执行 却 不 是 顺 
序 一 至 的 
我 们 来 证 明 不 存在 这 种 正确 的 顺序 执行 ， 其 中 的 方法 调用 能 够 以 一 种 与 程序 次 序 相 一 至 
的 次 序 进行 排序 。 采 用 反 证 法 ， 假 设 这 些 方法 调用 能 够 重新 排列 形成 一 个 正确 的 FIFO 队 列 执 
行 ， 其 中 方法 调用 的 次 序 与 程序 次 序 相 一 致 。 我 们 使 用 标记 <p.eng(x) A> 一 <q.deq(x) B> 表 示 
任意 的 顺序 执行 必须 使 得 4 对 p 的 入 队 x 操 作 先 于 B 对 gq 的 出 队 x 操 作 ， 以 此 类 推 。 由 于 p 是 FIFO 
的 且 A 从 p 中 出 队 y， 则 y 肯 定 在 x 之 前 入 队 : 
<p.eng(y) B> 一 <p.eng(x) A> 
同 理 ， 
<q.enq(x) A> 一 <q.enq(y) B> 
但 程序 次 序 说 明 
<p.enq(x) A> 一 <q.enq(x) A> H. <q.enq(y) B> > <p.enq(y) B> 
综 上 所 述 ， 这 种 排序 序列 形成 了 一 个 环 。 
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3.5 可 线性 化 性 


顺序 一 致 性 的 根本 缺陷 在 于 它 是 不 可 复合 的 : 将 多 个 顺序 一 致 的 部 分 组 合 起 来 ， 其 结果 
并 不 一 定 是 顺序 一 致 的 。 下 面 提出 一 种 解决 该 问题 的 方法 。 顺 序 一 致 性 要 求 方法 调用 必须 与 
程序 次 序 相 一 致 ， 我 们 用 一 种 更 强 的 约束 条 件 来 替换 这 一 要 求 : 

原则 3.5.1 每 个 方法 调用 都 应 该 呈现 出 一 种 与 它 的 调用 和 响应 之 间 的 某 个 时 刻 的 行为 相 
同 的 瞬时 效果 。 

这 个 原则 说 明 方 法 调用 的 实时 行为 必须 被 保持 。 这 种 正确 性 特性 称 为 可 线性 化 性 。 可 线 
性 化 的 执行 都 是 顺序 一 致 的 ， 反 之 则 不 成 立 。 
3.5.1 可 线性 化 点 

用 来 说 明 并 发 对 象 实现 是 可 线性 化 的 一 种 常用 办 法 就 是 对 每 个 方法 在 它 生 效 的 那个 地 方 
指定 一 个 可 线性 化 点 。 对 于 基于 锁 的 实现 来 说 ， 每 个 方法 的 临界 区 可 以 当 作 它 的 可 线性 化 点 。 
对 那些 不 使 用 锁 的 实现 ， 可 线性 化 点 通常 是 该 方法 调用 的 结果 对 其 他 方法 调用 可 见 时 的 那个 
操作 步 。 

以 图 3-3 所 示 的 单 人 队 者 / 单 出 队 者 队列 为 例 。 在 这 个 实现 中 没有 临界 区 ， 但 是 仍然 能 够 识 
别 其 可 线性 化 点 。 它 的 可 线性 化 点 依赖 于 执行 过 程 。 若 调用 返回 一 个 元 素 ， 则 在 head 域 被 更 
新 时 (第 17 行 )，deq() 方 法 有 一 个 可 线性 化 点 。 若 队列 为 空 ， 则 在 它 抛 出 空 异常 Empty- 
Exception 时 (第 15 行 )，deq( ) 方 法 有 一 个 可 线性 化 点 。enq( ) 方 法 的 分 析 与 之 类 似 。 


3.5.2 评析 


顺序 一 致 性 是 一 种 描述 独立 系统 (例如 硬件 存储 器 ) 的 有 效 方 法 ， 在 这 样 的 系统 中 不 存 
在 复合 性 问题 。 而 可 线性 化 性 则 非常 适合 描述 大 型 系统 的 组 件 ， 在 这 种 系统 中 各 个 组 件 必须 
独立 地 实现 和 验证 。 此 外 ， 实 现 并 发 对 象 所 用 的 技术 全 都 是 可 线性 化 的 。 由 于 我 们 重点 对 能 
够 保持 程序 次 序 和 复合 性 的 系统 感 兴趣 ， 所 以 本 书 中 大 多 数 (不 是 全 部 ) 数据 结构 都 是 可 线 
性 化 的 。 

可 线性 化 性 对 并 发 的 限制 有 多 大 呢 ? 与 顺序 一 致 性 一 样 ， 可 线性 化 性 也 是 非 阻塞 的 。 然 
而 ， 可 线性 化 性 又 是 可 复合 的 ， 可 线性 化 对 象 组 合 在 一 起 仍然 是 一 个 可 线性 化 的 对 象 ， 这 一 
点 与 顺序 一 致 性 不 同 ， 但 与 静态 一 致 性 相同 。 


3.6 形式 化 定义 


现在 来 考虑 更 为 精确 的 描述 。 本 节 着 重 于 可 线性 化 特性 的 形式 化 定义 ， 其 原因 在 于 这 一 
特性 是 书 中 最 常用 的 性 质 。 针 对 静态 一 致 性 和 顺序 一 致 性 的 类 似 定义 则 留 作 习题 。 

非 形式 化 地 来 看 ， 如 果 并 发 对 象 的 每 次 方法 调用 都 可 以 看 作 具 有 与 其 被 调用 和 响应 之 间 
的 某 个 时 刻 的 行为 相同 的 瞬时 效果 ， 那 么 这 个 并 发 对 象 是 可 线性 化 的 。 对 于 大 多 数 非 形式 化 
的 推理 ， 这 种 断言 就 已 足够 了 ， 但 是 对 于 一 些 更 细致 的 情形 (如 还 未 返回 的 方法 调用 ) ， 则 需 
要 精确 的 形式 化 公式 ， 进 行 更 加 严谨 的 论证 。 

并 发 系统 的 一 次 执行 过 程 可 以 采用 经 历 (history) 模型 来 描述 ， 经 历 是 方法 的 调用 事件 
和 响应 事件 的 一 个 有 限 序列 。 经 历 互 的 子 经 历 就 是 五 的 事件 序列 中 的 一 个 子 序列 。 方 法 的 一 次 
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调用 记 作 <x.m(a*) A4>， 其 中 x 是 对 象 ，m 是 方法 名 ，a* 是 参数 序列 ，A 是 线程 。 方 法 调用 的 一 
个 响应 记 作 <x:i(r*) 4>， 其 中 或 者 是 Ok 或 者 是 一 个 异常 名 ，r* 是 结果 值 序列 。 有 了 时 我 们 把 由 
线程 4 标记 的 一 个 事件 看 作 4 的 一 个 操作 步 。 

若 一 次 调用 与 一 个 响应 都 具有 相同 的 对 象 和 线程 ， 则 称 这 个 响应 匹配 这 次 调用 。 前 面 非 
形式 化 地 使 用 了 术语 “方法 调用 ”， 这 里 给 出 一 种 形式 化 的 定义 经 历 有 中 的 一 个 方法 调用 是 
一 个 二 元 组 ， 它 由 中 的 一 个 调用 和 一 个 紧 接 其 后 且 与 其 相 匹 配 的 响应 所 组 成 。 必 须 把 已 经 返 
回 的 调用 与 还 未 返回 的 调用 区 分 开 来 : 在 五 中 ， 若 一 个 调用 还 没有 与 之 相 匹 配 的 响应 ， 则 该 调 
用 是 未 决 的 。 五 的 一 个 扩展 是 这 样 的 一 个 经 历 : 对 五 中 的 零 个 或 多 个 未 决 调用 增加 了 相应 的 响 
应 后 构成 的 经 历 。 有 了 时 可 以 忽略 所 有 的 未 决 调用 : complete( 友 是 全 部 由 匹配 的 调用 和 响应 所 
构成 的 H 的 子 序列 。 

有 些 经 历 中 ,方法 调用 相互 间 不 重合: 如 果 H 中 的 第 一 个 事件 是 调用 事件 ， 除 最 后 一 个 事 
件 以 外 ， 石 中 的 每 个 调用 都 紧 随 一 个 与 之 匹配 的 响应 ， 则 经 历 H 是 顺序 的 。 

有 了 时 只 需 关 注 单一 线程 或 单一 对 象 的 情形 ;中 线程 4 的 子 经 历 是 指 由 及 中 所 有 线程 名 为 4 
的 事件 组 成 的 子 序 列 ， 记 作 HIA ( 读 作 在 4 上 )。 同 理 可 以 定义 厂 中 一 个 对 象 x 的 子 经 历 HIx。 
余下 的 问题 就 是 每 个 线程 如 何 看 待 已 发 生 的 事件 : 对 于 两 个 经 历 H 和 nH'"， 如 果 对 于 任意 线程 4 
都 有 HIA4=H'14A4， 则 称 厂 和 是 等 价 的 。 最后， 必须 将 没有 意义 的 经 历 排除 如果 如 中 每 个 线程 
的 子 经 历 都 是 顺序 的 ， 则 是 良 构 的 。 本 章 所 考虑 的 经 历 都 是 良 构 的 。 注 意 ， 一 个 良 构 经 历 的 
每 个 线程 的 子 经 历 必 定 是 顺序 的 ， 但 它 的 对 象 的 子 经 历 却 不 一 定 是 顺序 的 。 

如 何 判断 一 个 对 象 是 否 是 一 个 真正 的 FIFO 队 列 呢 ? 假定 存在 一 种 有 效 的 方法 ， 可 以 判断 
任意 一 个 对 象 的 顺序 经 历 对 于 这 个 对 象 的 类 来 说 是 否 是 一 个 合法 的 经 历 。 一 个 对 象 的 顺序 规 
范 恰 好 就 是 该 对 象 顺序 经 历 的 集合 。 如 果 每 个 对 象 的 子 经 历 对 该 对 象 都 是 合法 的 ， 则 顺序 经 
历 H 是 合法 的 。 

第 2 章 中 已 指出 ， 集 合 X 上 的 偏 序 关系 “一 ”是 反 自 反 和 可 传递 的 。 也 就 是 说 ，x 一 x 决 不 
会 成 立 ， 且 只 要 x 一 y 以 及 y 一 z， 就 有 x 一 z<。 注 意 ， 可 能 存在 不 同 的 x 和 y， 使 得 x 一 y 和 y 一 x 都 不 
成 立 。 集 合 X 上 的 全 序 关 系 “<” 也 是 一 种 偏 序 关 系 ， 但 对 于 任意 不 同 的 x 和 y， 必 有 x<y 或 者 
y<X。 

任何 偏 序 关系 都 能 扩展 为 全 序 关系 : 

结论 3.6.1 若 “ 一 ”是 集合 人 X 上 的 偏 序 关系 ， 则 必 存 在 上 的 全 序 关系 “<”， 使 得 如 果 x 一 
y， 则 x<y。 

在 经 历 太 中 ， 如 果 方 法 调用 mo 在 方法 调用 mi 开始 之 前 完成 ， 则 称 mo 先 于 ml: 也 就 是 说 ， 
mo 的 响应 事件 在 m 的 调用 事件 之 前 发 生 。 基 于 这 个 概念 ， 我 们 引入 一 些 简写 符号 。 给 定 一 个 
包含 方法 调用 mo 和 m1 的 经 历 肪 ， 若 如 中 mwo 先 于 m1， 则 记 为 mo 一 jy mi。 关 于 一 5 是 一 个 偏 序 关系 
的 证 明 留 作 习 题 。 注 意 ， 如 果 五 是 顺序 的 ， 则 一 5 是 一 个 全 序 关 系 。 给 定 一 个 经 历 及 及 一 个 对 
象 -， 且 Hix 中 包含 有 方法 调用 mo 和 m1， 如 果 Hlx 中 mo 先 于 my， 则 记 作 mo 一 ,mi。 


3.6.1 可 线性 化 性 


可 线性 化 性 所 隐 含 的 基本 思想 就 是 每 一 个 并 发 经 历 都 等 价 于 某 一 个 顺序 经 历 (从 下 面 的 
角度 来 看 ) 。 基 本 准则 就 是 如 果 一 个 方法 调用 先 于 另 一 个 方法 调用 ， 则 较 早 的 调用 必定 在 较 晚 
的 调用 前 生效 。 反 之 ， 如 果 两 个 方法 调用 彼此 重合， 则 它们 的 次 序 将 无 法 确定 ， 可 以 按照 任 
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意 的 次 序 对 其 进行 排序 。 

更 形式 化 地 来 讲 ， 

定义 3.6.1 如 果 经 历 及 存在 有 一 个 扩展 电 ' 及 一 个 合法 的 顺序 经 历 $， 并 使 得 

Li complete(H') 与 $ 等 价 ， 且 

L2 若 在 及 中 方法 调用 mo 先 于 mi， 那么 在 S 中 也 成 立 。 
则 称 经 历 玉 是 可 线性 化 的 。 

5 称 作 是 且 的 一 个 线性 化 。( 恕 可 以 有 多 个 线性 化 。) 

非 正式 地 来 看 ， 把 瓦 扩展 为 妃 意 味 着 即使 某 些 未 决 调用 还 没有 给 调用 者 返回 响应 ， 但 它们 
有 可 能 已 经 生效 。 图 3-9 说 明了 这 样 一 个 概念 : 必须 完成 未 决 的 方法 调用 enq(x) 以 保证 deq( ) 调 
用 返回 x。 第 二 个 条 件 表明 ， 如 果 某 个 方法 调用 在 原先 经 历 中 先 于 另外 一 个 调用 ， 那 么 在 该 线 
性 化 中 也 必须 保持 它们 之 间 的 这 种 次 序 。 


g.enq(x) 
maweana manman mm a a a 
q.deq(x) 
~~--------------------- mm - - - - - - - - - - - - - - - - - --- ---------， 


3-9 未 决 的 enq(%) 调 用 必须 提前 生效 来 确保 deq0) 调 用 返回 x 


3.6.2 可 线性 化 性 的 复合 性 


可 线性 化 性 是 可 复合 的 : 

定理 3.6.1 对 于 每 个 对 象 x<， 当 且 仅 当 Hlx 是 可 线性 化 的 ， 及 是 可 线性 化 的 。 

证 明 “ 仅 当 ”部 分 的 证 明 留 作 习 题 。 

对 每 个 对 象 -， 找 出 一 个 Hix 的 线性 化 。 令 R, 是 Hlx 中 构造 这 个 线性 化 的 所 有 响应 的 集合 ， 
令 一 :为 对 应 的 线性 化 次 序 。 令 及 是 将 R, 中 的 每 个 响应 加 入 五 中 所 构成 的 经 历 。 

对 如 ' 中 方法 调用 的 个 数 进行 归纳 证 明 。 在 最 基本 的 情况 下 ,五 ' 仅 包含 一 个 方法 调用 ， 结 
论 显 然 成 立 。 接 下 来 ， 假 设 结论 对 所 有 的 包含 方法 调用 个 数 少 于 上 (k>1) 的 都 成 立 。 对 每 个 
对 象 x-， 考 虑 有 H'x 中 最 后 的 方法 调用 。 在 这 些 调用 中 必定 存在 一 个 调用 m， 它 对 于 关系 一 wy 是 最 
大 的 调用 : 也 就 是 说 ,不 存在 m'， 使 得 m 一 py m'。 令 G' 是 从 旦 中 移 去 m 后 得 到 的 经 历 。 由 于 m 是 
最 大 的 ， 所 以 有 H' 等 价 于 G'* m。 由 归纳 假设 可 知 ，G' 对 于 顺序 经 历 5' 是 可 线性 化 的 ，H' 和 五 对 
于 S'. m 也 都 是 可 线性 化 的 。 

复合 性 是 一 个 很 重要 的 特性 ， 它 使 得 并 发 系统 的 设计 和 构造 能 够 采用 模块 化 的 方式 ， 不 
同 的 可 线性 化 对 象 可 以 独立 地 实现 、 验 证 和 执行 。 而 基于 不 可 复合 正确 性 特性 的 并 发 系统 必 
须 依 赖 于 一 个 集中 式 的 调度 器 来 调度 所 有 的 对 象 ， 或 者 要 满足 一 些 额 外 的 附加 在 对 象 上 的 约 
束 条 件 ， 以 保证 对 象 遵 守 一 种 相 容 的 调度 协议 。 


3.6.3 非 阻塞 特性 


可 线性 化 是 一 种 非 阻塞 特性 : 一 个 完全 方法 的 未 决 调用 不 需要 等 待 另 一 个 未 决 调 用 完成 。 
定理 3.6.2 令 inv(m) 是 完全 方法 的 一 个 调用 。 如 果 <x inv PT 线性 化 经 历 甩 中 的 一 个 未 
决 调 用 ， 则 必定 存在 一 个 响应 <x res P> 使 得 及 <x res P> 是 可 线性 化 的 。 
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WEAR 令 S 是 有 的 任意 一 个 线性 化 。 如 果 S 中 包含 有 一 个 对 应 于 <x inv P> 的 响应 <x res P>, 
因为 5 也 是 及 <x res P> 的 一 个 线性 化 ， 所 以 结论 成 立 。 否 则 ， 因 为 按照 定义 ， 线 性 化 不 包含 
任何 未 决 调用 ， 所 以 <x inv P> 也 不 会 在 5 中 出 现 。 由 于 方法 是 完全 的 ， 所 以 存在 一 个 响应 <x 
res P> 使 得 

S'=S - <x inv P>: <x res P> 
是 合法 的 。 而 5' 是 及 <x res P> 的 一 个 线性 化 ， 因 此 它 也 是 五 的 一 个 线性 化 。 

该 定理 说 明 可 线性 化 性 本 身 决 不 会 使 一 个 包含 有 对 完全 方法 的 未 决 调 用 的 线程 被 阻塞 。 
当然 ， 阻塞 (其 至 死 锁 ) 有 可 能 作为 可 线性 化 性 特定 实现 中 的 人 为 因素 而 出 现 ， 但 它 并 不 是 
正确 性 本 身 所 固有 的 。 这 条 定理 也 说 明 可 线性 化 性 是 一 种 适 于 并 发 性 和 实时 性 要 求 较 高 的 系 [58] 
统 的 正确 性 条 件 。 

非 阻塞 特性 并 不 排除 以 显 式 方式 说 明 的 阻塞 情形 。 例 如 ， 考 虑 某 个 线程 试图 对 空 队列 进 
行 出 队 操作 的 情形 ， 让 该 线程 阻塞 直到 其 他 线程 向 队列 中 写 和 元素 应 该 是 有 意义 的 做 法 。 为 
了 能 够 发 现 这 种 对 空 队列 出 队 的 企图 ， 队 列 规范 中 必须 将 deq( ) 方 法 说 明成 部 分 的 ， 该 方法 应 
用 到 空 队列 时 的 影响 效果 在 说 明 中 并 不 需要 作出 定义 。 对 于 部 分 顺序 规范 ， 最 自然 的 并 发 解 
释 就 是 使 调用 一 直 等 待 ， 直 到 对 象 到 达 一 个 已 在 方法 说 明 中 定义 了 的 状态 。 


3.7 演进 条 件 


可 线性 化 性 的 非 阻 塞 特 性 说 明 任何 未 决 调用 都 有 一 个 正确 的 响应 ， 但 并 没有 说 明 如 何 计 
算 这 个 响应 。 例 如 ， 考 虑 图 3-1 中 所 示 的 基于 锁 的 队列 。 假 设 队 列 的 初始 状态 为 空 。 在 x 入 队 
的 过 程 中 间 4 发 生 了 中 断 ， 然 后 B 调 用 deq( )。 非 阻塞 特性 要 求 确保 B 的 deq( ) 调 用 必须 要 有 -一 
个 响应 : 抛 出 一 个 异常 或 者 返回 zx。 然而 ， 在 这 个 实现 中 B 由 于 无 法 获得 锁 ， 从 而 使 得 只 要 4 被 
延迟 则 8 也 将 被 延迟 。 

这 样 的 实现 称 为 阻塞 ， 因 为 一 个 线程 的 意外 延迟 将 会 阻止 其 他 线程 继续 推进 。 而 线程 的 
意外 延迟 在 多 处 理 器 系统 结构 中 是 经 常 出 现 的 。 一 个 cache 缺 失 可 能 会 导致 处 理 器 延迟 上 百 个 
指令 周期 ， 一 个 页 故障 可 能 导致 几 百 万 个 指令 周期 的 时 延 ， 而 操作 系统 抢占 则 可 能 导致 上 亿 
个 指令 周期 的 时 延 。 确 切 的 数据 取决 于 具体 的 机 器 和 操作 系统 。 

如 有 果 能 够 保证 一 个 方法 的 每 次 调用 执行 都 能 在 有 限 步 内 完成 ， 则 该 方法 是 无 等 待 的 。 如 
果 对 于 一 个 方法 调用 存在 着 关于 它 的 操作 步 个 数 的 界限 ， 则 该 方法 是 有 界 无 等 待 的 。 这 个 界 
限 有 可 能 依赖 于 线程 的 个 数 。 例 如 ， 第 2 章 中 Bakery 算 法 的 门廊 区 就 是 有 界 无 等 待 的 ， 其 中 的 
界限 就 是 线程 的 个 数 。 对 于 一 个 无 等 待 的 方法 ， 若 它 的 性 能 与 处 于 活动 状态 的 线程 个 数 无 关 ， 
则 称 该 方法 是 集 居 数 无 关 的 。 如 果 一 个 对 象 的 所 有 方法 都 是 无 等 待 的 ， 则 称 这 个 对 象 是 无 竺 
待 的 ， 在 面向 对 象 的 语言 中 ， 若 一 个 类 的 所 有 实例 都 是 无 等 待 的 ， 则 称 这 个 类 是 无 等 待 的 。 
无 等 待 是 一 种 非 阻塞 的 演进 条 件 ， 意 味 着 一 个 线程 的 任意 意外 延迟 (比如 说 一 个 线程 持 有 锁 ) 
都 不 会 阻塞 其 他 线程 的 继续 执行 。 

图 3-3 所 示 的 队列 是 无 等 待 的 。 例 如 ， 如 果 在 4 使 * 入 队 的 过 程 中 发 生 中 断 ， 然 后 6 调用 
deq()， 那 么 在 这 样 的 情形 中 ，B 或 者 将 抛 出 空 异 常 (4 在 向 数组 存 和 元素 x* 之 前 发 生 中 断 ) 或 
者 返回 x (在 4 向 数组 存 和 元素 之 后 中 断 )。 而 图 3-1 中 基于 锁 的 队列 不 是 非 阻塞 的 ， 因 为 B 将 执 
行 无 限 的 操作 步 请 求 获得 锁 。 
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由 于 无 等 待 特 性 能 够 保证 所 有 线程 都 继续 向 前 推进 ， 因 此 具有 一 定 的 吸引 力 。 然 而 ， 
无 等 待 算法 的 效率 较 低 ， 有 时 选择 一 个 稍 弱 的 非 阻 塞 特性 来 解决 问题 可 能 是 一 种 更 加 合适 
的 方案 。 

如 有 果 能 够 保证 一 个 方法 的 无 限 次 调用 都 能 够 在 有 限 步 内 完成 ， 则 称 这 个 方法 是 无 锁 的 。 
显然 ， 任 何 无 等 待 的 方法 实现 必 是 无 锁 的 ， 但 反 过 来 不 成 立 。 无 锁 算法 允许 某 些 线程 可 以 出 
现 饥 俄 。 事 实 上 ， 很 多 可 能 出 现 饥 钱 的 情形 往往 极 少 发 生 ， 因 此 一 个 快速 的 无 锁 算法 比 一 个 
较 慢 的 无 等 待 算法 更 具 吸 引力 。 


相关 演进 条 件 


无 等 待 和 无 锁 的 非 阻塞 演进 条 件 保证 整个 计算 作为 一 个 整体 向 前 推进 ， 而 与 系统 中 线程 
是 如 何 调度 的 无 关 。 

第 2 章 已 讲述 了 两 种 针对 阻塞 实现 的 演进 条 件 : 无 死 锁 和 无 饥 馈 。 这 两 个 特性 是 相关 的 演 
ERE: 仅 当 底层 平台 〈 即 操作 系统 ) 提供 某 种 保证 时 ， 程 序 才能 推进 。 原 则 上 ， 当 操作 系 
统 能 够 保证 所 有 的 线程 最 终 都 可 以 离开 各 自 的 临界 区 时 ， 无 死 锁 和 无 饥饿 特性 是 有 用 的 。 而 
实际 上 ， 通 常 在 操作 系统 能 够 保证 每 个 线程 最 终 都 能 及 时 地 离开 各 自 的 临界 区 的 情形 下 ， 这 
两 个 特性 才 是 有 用 的 。 

如 果 一 个 类 的 方法 实现 依赖 于 基于 锁 的 同步 ， 那 么 最 多 只 能 保证 相关 演进 特性 。 这 个 结 
论 是 否 表明 要 避免 使 用 基于 锁 的 算法 呢 ? 答案 是 未 必 。 若 在 临界 区 内 的 抢占 行为 很 少 发 生 ， 
那么 相关 阻塞 演进 条 件 与 相应 的 非 阻塞 演进 条 件 的 效率 相差 甚 微 。 若 这 种 抢占 经 常 发 生 以 致 
引起 关注 ， 或 者 这 种 基于 抢占 的 时 延 代 价 很 高 ， 那 么 采用 非 阻塞 演进 条 件 更 为 明智 。 

还 有 另 一 种 相关 的 非 阻塞 演进 条 件 : 无 干扰 。 若 一 个 方法 调用 执行 时 没有 其 他 的 线程 也 
在 执行 ， 则 称 该 方法 调用 的 执行 过 程 是 隔离 的 。 

定义 3.7.1 车 一 个 方法 能 在 有 限 步 内 完成 ， 并 且 从 任 一 点 开始 ， 它 的 执行 都 是 隔离 的 ， 
则 这 个 方法 是 无 干扰 的 。 

与 其 他 的 非 阻塞 演进 条 件 一 样 ， 无 干扰 条 件 保证 并 非 所 有 的 线程 都 能 被 某 个 或 某 些 其 他 
线程 的 突 发 延迟 所 阻塞 。 无 锁 的 算法 必定 是 无 干扰 的 ， 但 反 过 来 并 不 一 定 成 立 。 

无 干扰 算法 不 需要 使 用 锁 ， 但 并 不 能 保证 多 线程 并 发 执行 的 演进 条 件 。 这 一 点 似乎 与 大 
多 数 操作 系统 调度 器 所 采用 的 公平 方案 相 违背 ， 在 这 些 系统 中 ， 仅 当 一 个 线程 在 其 他 线程 的 
前 面 被 不 公平 地 调度 时 ， 才 需要 保证 演进 条 件 。 

然而 ， 在 实际 中 这 个 问题 并 不 会 带 来 什么 影响 。 无 干扰 条 件 不 需要 中 止 所 有 的 线程 ， 只 
是 中 止 那 些 存 在 冲突 的 线程 ， 即 调用 同一 个 共享 对 象 的 方法 的 线程 。 设 计 无 干扰 算法 的 一 种 
简单 办 法 就 是 引入 后 退 机 制 ， 中 止 检测 到 冲突 的 线程 ， 让 较 早 的 线程 优先 完成 。 选 择 何 时 后 
退 以 及 后 退 多 长 时 间 是 一 个 很 复杂 的 问题 ， 将 在 第 7 章 中 进行 详细 讨论 。 

为 一 个 并 发 对 象 的 实现 选择 演进 条 件 取决 于 应 用 的 需求 和 底层 平台 的 特性 。 从 理论 上 来 
讲 ， 绝 对 的 无 等 待 和 无 锁 演进 条 件 具 有 很 好 的 性 质 ， 它 们 可 以 在 任意 平台 上 工作 ， 且 能 够 为 
音乐 、 电 子 游戏 以 及 其 他 交互 应 用 提供 实时 保证 。 而 相关 的 无 干扰 特性 、 无 死 锁 特性 和 无 饥 
饿 特性 则 依赖 于 底层 平台 所 提供 的 保证 。 如 果 已 经 提供 了 这 些 保 证 ， 那 么 这 些 相关 的 特性 通 
常 能 使 实现 变 得 更 加 简单 有 效 。 
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3.8 Java 存储 器 模型 


Java 程 序 设计 语言 在 读 / 写 共 享 对 象 的 域 时 并 不 保证 可 线性 化 性 ， 甚 至 不 保证 顺序 一 致 性 。 
为 什么 呢 ? 其 主要 的 原因 就 在 于 若 严格 地 遵循 顺序 一 致 性 ， 那 么 将 会 使 已 被 广泛 采用 的 编译 
优化 技术 变 得 无 效 ， 如 寄存 器 分 配 、 公 用 子 表达 式 消除 、 元 余 读 消除 等 ， 因 为 所 有 这 些 优化 
技术 都 是 通过 重 排 存 储 器 读 写 次 序 来 实现 的 。 在 单线 程 计算 中 ， 这 种 重新 排序 对 于 要 被 优化 
的 程序 来 说 是 不 可 见 的 ， 但 在 多 线程 计算 中 ， 一 个 线程 可 以 监视 到 另 一 个 线程 ， 并 观察 到 混 
乱 无 序 的 执行 次 序 。 

Java 存 储 器 模型 满足 松弛 存储 器 模型 的 基本 特性 : 如 果 程 序 的 顺序 一 致 执行 满足 某 规则 ， 
那么 该 程序 的 所 有 执行 在 松弛 模型 中 仍然 是 顺序 一 致 的 。 本 节 描 述 保证 Java 程 序 满足 顺序 一 
致 性 的 规则 ， 但 并 不 讨论 所 有 的 规则 ， 因 为 那样 的 话 将 会 非常 庞大 和 复杂 。 这 里 着 重 讲述 那 
些 适 合 于 大 多 数 应 用 的 直接 规则 。 

图 3-10 描 述 了 双重 校 验 上 锁 ， 这 是 一 个 曾经 经 常 使 用 的 程序 设计 术语 ， 但 由 于 Java 不 具备 
顺序 一 致 性 ， 因 而 目前 很 少 再 被 使 用 。Sing1leton 类 管理 着 一 个 单一 的 Singleton 对 象 实例 ， 
通过 getInstance() 方 法 进行 访问 。 在 此 方法 首次 被 调用 时 创建 这 个 实例 。 为 了 确保 只 有 一 个 
实例 被 创建 ，getInstance( ) 方 法 必须 是 同步 的 ， 即 使 多 个 线程 同时 观察 到 instance 为 null 时 
也 应 保证 只 有 一 个 实例 被 创建 。 然 而 ， 一旦 实例 被 创建 ， 则 不 再 需要 同步 。 在 图 3-10 所 示 的 
代码 中 ， 作 为 一 种 优化 方式 ， 只 有 在 instance 为 null 时 才能 进入 同步 块 。 一 旦 进入 同步 块 ， 
则 在 创建 实例 之 前 再 次 进行 双重 校 验 ， 验 证 instance 是 否 仍 然 为 null。 


public static Singleton getInstance() { 
if (instance == null) { 





1 
2 
3 synchronized(Singleton.class) { 
4 if (instance == null) 
5 instance = new Singleton(); 
6 } 
7 } 
8 return instance; 
9 


} 














图 3-10 双重 校 验 上 锁 


然而 ， 这 种 曾经 流行 的 模式 并 不 正确 。 在 第 5 行 ， 构 造 函 数 调用 似乎 应 该 在 instance 域 被 
赋值 之 前 进行 ， 但 Java 存 储 器 模型 允许 这 两 个 步骤 以 任意 次 序 进行 ， 以 有 效 地 构造 一 个 对 其 
他 程序 可 见 的 部 分 初始 化 的 Singleton 对 象 。 

在 Java 存 储 器 模型 中 ， 对 象 驻 留 在 共享 存储 器 中 ， 每 个 线程 具有 一 个 私有 的 内 存 工 作 区 ， 
其 中 存放 着 该 线程 已 读 / 写 的 域 的 cache 拷 贝 。 在 没有 显 式 同 步 ( 稍 后 解释 ) 的 情形 下 ， 对 一 个 
域 执行 了 写 操作 的 线程 可 能 没有 将 它 的 更 新 立刻 传送 到 存储 器 中 ， 而 对 一 个 域 执行 读 操作 的 
线程 ， 当 存储 器 中 域 的 值 发 生 改 变 时 ， 其 相应 的 内 存 工作 区 可 能 还 没有 被 修改 。Java 虚 拟 机 
不 用 保持 这 种 cache 一 致 性 ， 但 实际 上 这 些 cache 找 贝 往往 是 一 致 的 ， 虽 然 并 没有 要 求 这 样 做 。 
在 这 种 情形 下 ， 只 能 保证 一 个 线程 自己 的 读 / 写 对 该 线程 来 说 是 按照 顺序 发 生 的 ， 由 一 个 线程 
读 的 任意 域 值 一 定 是 已 经 被 写 入 那个 域 的 值 ( 即 值 不 是 凭空 出 现 的)。 

某 些 语 句 是 同步 事件 。 通 常 ， 术 语 “ 同 步 ”意味 着 某 种 形式 的 原子 性 或 者 互 斥 。 在 Java 
中 ， 它 还 意味 着 保持 共享 存储 器 与 线程 的 内 存 工作 区 之 间 的 一 致 性 。 有 一 些 同 步 事件 要 引起 
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线程 把 cache 中 的 更 新 写 回 到 共享 存储 器 中 ， 从 而 使 这 些 更 新 对 其 他 线程 是 可 见 的 。 而 另外 一 
些 同步 事件 则 要 求 线程 将 其 cache 中 的 值 设 为 无 效 ， 再 重新 从 存储 器 中 读 取 域 值 ， 从 而 使 其 他 
线程 的 更 新 对 该 线程 是 可 见 的 。 同 步 事 件 是 可 线性 化 的 它们 是 全 序 的 ， 且 所 有 线程 都 要 遵 
循 这 种 约定 次 序 。 下 面 来 看 看 几 种 不 同 的 同步 事件 。 


3.8.1 锁 和 同步 块 


线程 可 以 通过 两 种 方式 达到 互 斥 ， 或 者 进入 某 个 synchronized 块 或 方法 ， 从 而 获得 一 个 
EAB 或 者 直接 获得 显 式 的 锁 ( 例 如 java.uti1.concurrent.1ocks 包 中 的 ReentrantLock)。 
两 种 方法 对 存储 器 行为 来 说 具有 相同 的 含义 。 

如 果 对 一 个 特定 域 的 所 有 访问 通过 同一 个 锁 来 保护 ， 那 么 对 这 个 域 的 读 / 写 操作 是 可 线性 
化 的 。 当 一 个 线程 释放 锁 时 ， 内 存 工作 区 中 被 修改 的 域 也 被 写 回 到 共享 存储 器 中 ， 修 改 的 完 
成 是 通过 一 直 持 有 可 由 其 他 线程 访问 的 锁 来 实现 的 。 若 一 个 线程 获得 锁 ， 则 把 自己 工作 区 置 
为 无 效 ， 以 此 保证 域 值 是 从 共享 存储 器 中 重新 读 取 的 。 所 有 这 些 条 件 确保 了 由 一 个 单 锁 保 护 
的 对 象 的 读 / 写 操作 是 可 线性 化 的 。 


3.8.2 volatile 域 


volatile 〈 挥 发) 域 是 可 线性 化 的 。 对 一 个 volatile 域 的 读 就 如 同 获得 一 个 锁 : 工作 区 被 置 
为 无 效 ， 重 新 从 存储 器 中 读 取 该 挥发 域 的 当前 值 。 对 一 个 volatile 域 的 写 类 似 于 释放 一 个 锁 : 
挥发 域 的 值 立刻 被 写 回 存储 器 。 

尽管 volatile 域 的 读 / 写 操作 在 保持 存储 器 一 致 性 方面 具有 和 申请 /释放 锁 操 作 相同 的 效果 ， 
但 多 个 读 / 写 操作 的 执行 并 不 是 原子 的 。 例 如 ， 假 设 x 是 一 个 volatile 变 量 ， 如 果 并 发 线程 可 以 
修改 x， 则 表达 式 x++ 并 不 一 定 会 使 x 增加 1。 因 此 ， 还 是 需要 某 种 形式 的 互 斥 。volatile 变 量 的 
一 种 常用 形式 是 : 一 个 域 被 多 个 线程 读 ， 而 仅 被 一 个 线程 写 。 

java.util.concurrent.atomic 包 中 包含 有 能 够 提供 可 线性 化 存储 器 的 类 ， 如 Atomic- 
Reference<T> 和 AtomicIinteger。compareAndSet() 和 set() 方 法 的 行为 类 似 于 挥发 的 写 ， 
get() 方 法 的 行为 类 似 于 挥发 的 读 。 


3.8.3 final 域 


被 声明 为 final 类 型 的 域 一 旦 初始 化 后 就 不 能 再 被 修改 了 。 一 个 对 象 的 final 域 在 其 构造 函 
数 中 被 初始 化 。 如 果 这 个 构造 函数 遵循 下 面 描述 的 一 些 简 单 规则 ， 那 么 任意 final 域 中 的 正确 
值 不 需要 同步 就 对 其 他 线程 可 见 。 例 如 ， 在 图 3-11 所 示 的 代码 中 ， 由 于 x 域 被 声明 成 final 类 型 
的 ， 所 以 能 够 保证 调用 reader( ) 的 线程 看 到 的 x 值 等 于 3。 由 于 y 不 是 final 类 型 的 ， 因 此 不 保证 
y 值 等 于 4。 

如 果 构 造 函 数 被 错误 地 同步 ， 那 么 看 到 的 final 域 的 值 就 可 能 是 改变 的 值 。 规 则 很 简单 : 
this 引 用 在 构造 函数 返回 前 决 不 能 被 它 所 释放 。 

图 3-12 描 述 了 一 个 事件 驱动 系统 中 错误 的 构造 函数 。 其 中 ，EventListener 类 用 一 个 
EventSource 类 来 注册 自己 ， 构 造 了 一 个 其 他 线程 可 访问 的 监听 对 象 的 引用 。 因 为 代码 中 的 注 
册 是 构造 函数 的 最 后 一 步 ， 所 以 看 上 去 似乎 是 安全 的 ， 但 实际 上 却 是 错误 的 ， 其 原因 在 于 如 
果 男 一 个 线程 在 构造 函数 结束 前 调用 了 事件 监听 器 的 onEvent() 方 法 ， 则 将 无 法 保证 
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onEvent( ) 方 法 看 到 正确 的 x 值 。 
1 class FinalFieldExample { 
2 final int x; int y; 
3 static FinalFieldExample f; 
4 ga FinalFieldExample() { 
5 = 3; 
6 = 4; 
7 p 
8 static void writer() { 
9 f = new FinalFieldExample(); 
10 } 
11 static void reader() { 
12 if (f != null) { 
13 int i = f.x; int j = f.y; 
14 } 
15 } 
16 } 








Ree ee ee el 
图 3-11 有 final 域 的 构造 函数 


es public class EventListener { 

final int x; 

public EventListener(EventSource eventSource) { 
eventsource.registerListener(this); // register with event source .. 





public onEvent(Event e} | 
.. // handle the event 
} 
} 





DOON DAR WN 


— 





图 3-12 错误 的 EventListener 类 


之 ， 只 有 当 一 个 域 是 volatile 类 型 ， 或 者 这 个 域 被 一 个 由 所 有 读者 和 写 者 都 能 获得 的 唯 
ea 


3.9 评析 


一 个 应 用 应 选择 什么 样 的 演进 条 件 才 是 正确 的 呢 ? 这 取决 于 应 用 的 需求 以 及 运行 应 用 的 
支撑 系统 自身 所 具有 的 属性 。 但 在 实际 应 用 中 ,这 是 一 个 “技巧 性 的 问题 "， 因 为 不 同 的 方法 ， 
甚至 那些 应 用 到 同一 对 象 的 方法 ， 都 可 能 具有 不 同 的 演进 条 件 。 频 繁 调用 的 实时 方法 应 该 是 
无 等 待 的 ， 例 如 防火 墙 程序 中 的 表格 查询 ， 而 像 更 新 表格 条 目 这 种 不 常用 的 调用 则 可 以 使 用 
互 不 来 实现 。 正 如 我 们 将 看 到 的 ， 在 编写 应 用 程序 中 ， 采 用 不 同 演 进 条 件 的 方法 是 很 自然 的 
事情 。 

对 于 一 个 应 用 来 说 ， 选 择 什么 样 的 正确 性 条 件 才 是 适合 的 呢 ? 这 取决 于 应 用 的 需求 。 对 
于 一 个 使 用 队列 来 处 理 打印 任务 的 轻 负 荷 打印 服务 器 ， 只 需 采 用 一 个 满足 静态 一 致 性 的 队列 
即 可 ， Se 序 打印 并 不 重要 。 一 个 银行 服务 器 则 必须 以 程序 次 序 (从 储蓄 中 转 |64 
入 100 美 元 到 支票 中 ， 写 一 张 50 美 元 的 支票 ) 执行 顾客 的 请 求 ， 所 以 必须 使 用 顺序 一 致 的 队列 。 
TEANA ile 必须 是 公平 的 ， 所 以 必须 按照 不 同 顾客 到 达 的 先后 次 序 来 提供 服务 ， 

这 意味 着 它 需 要 一 个 可 线性 化 的 队列 。 
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下 面 这 个 笑话 在 20 世 纪 20 年 代 的 意大利 非常 流行 。 根 据 墨 索 里 尼 的 观点 ， 完 美的 公民 是 
充满 智慧 的 、 诚 实 的 且 奉 行 法 西 斯 主义 的 。 不 幸 的 是 ， 不 存在 如 此 完美 的 人 ， 这 也 就 解释 了 
为 什么 日 常 所 见 的 人 要 么 是 充满 智慧 的 、 奉 行 法 西 斯 主义 的 ， 但 是 却 不 诚实 ， 要 么 是 诚实 的 、 
奉行 法 西 斯 主义 的 ， 但 却 缺乏 智慧 ， 要 么 是 充满 智慧 的 、 诚 实 的 ， 但 却 不 奉行 法 西 斯 主义 。 

对 于 程序 设计 人 员 而 言 ， 最 理想 的 情形 也 许 就 是 拥有 可 线性 化 的 硬件 、 可 线性 化 的 数据 
结构 及 良好 的 性 能 。 不 幸 的 是 ， 技 术 总 是 不 完善 的 ， 且 随 着 时 间 的 推移 ， 性 能 良好 的 硬件 其 
至 都 不 是 顺序 一 致 的 。 正 如 这 则 笑话 所 说 的 ， 具 有 良好 的 性 能 并 且 是 可 线性 化 的 数据 结构 ， 
其 实现 的 可 能 性 是 不 得 而 知 的 。 毫 无 疑问 ， 让 这 个 幻想 变 成 现实 存在 着 许多 挑战 ， 本 书 余下 
的 部 分 可 以 当 作 一 个 路 线 图 ， 展 示 如 何 实现 这 个 目标 。 


3.10 本 章 注释 


静态 一 致 性 概念 最 初 由 James Aspnes, Maurice Herlihy 和 Nir Shavit[16] 提 出 ， 而 Nir 
Shavit 和 Asaph Zemach[143] 给 出 了 这 一 概念 的 确切 定义 。Leslie Lamport[90] 提 出 了 顺序 一 致 
性 的 概念 ，Christos Papadimitriou[123] 则 定义 了 可 顺序 化 性 的 规范 形式 。William Weihl[149] 
第 一 个 指出 了 复合 性 (在 他 的 论文 中 称 之 为 局 部 性 ) 的 重要 性 。Maurice Herlihy 和 Jeannette 
Wing[69] 于 1990 年 提出 了 可 线性 化 性 的 概念 。Leslie Lamport[93, 94] 于 1986 年 提出 了 原子 寄存 
器 的 概念 。 

根据 目前 所 掌握 的 情况 ， 无 等 待 概念 最 早 在 Leslie Lamport 的 Bakery 算 法 [88] 中 被 非 形 式 
化 地 引入 。 曾 经 有 过 几 种 不 同 的 无 锁 概 念 ， 最 近 几 年 才 趋向 于 现在 的 定义 。 无 干扰 由 Maurice 
Herlihy, Victor Luchangco 和 Mark Moir[61] 提 出 。 相 关 演 进 概念 由 Maurice Herlihy 和 Nir 
Shavit[63] 提 出 。 

C 或 C++ 等 程序 设计 语言 并 不 是 针对 并 发 编程 的 , 因此 在 这 些 语言 中 没有 定义 存储 器 模型 。 
并 发 的 C 或 C++ 程序 的 实际 行为 是 由 底层 硬件 、 编 译 器 和 并 发 库 的 复杂 组 合 所 产生 的 结果 。 关 
于 这 些 问 题 的 详细 讨论 可 见 Hans Boehm[21]。 本 章 提 到 的 Java 存 储 器 模型 是 Java 语 言 的 第 二 个 
存储 器 模型 。Jeremy Manson, Bill Pugh 和 Sarita Adve[111] 给 出 了 当前 Java 存 储 器 的 更 为 详尽 
的 说 明 。 

双 线 程 队列 是 一 种 习惯 叫 法 ， 然 而 据 了 解 ， 这 一 概念 以 文字 方式 首次 出 现 是 在 Leslie 
Lamport[91] 的 一 篇 论文 中 。 


3.11 习题 


习题 21. 试 解释 为 什么 静态 一 致 性 是 复合 的 。 

习题 22. 考虑 一 个 包含 有 两 个 寄存 器 组 件 的 存储 器 对 象 。 已 知 如 果 这 两 个 寄存 器 是 静态 一 致 的 ， 则 
该 存储 器 也 是 静态 一 致 的 。 反 过 来 是 否 成 立 ? 即 如 果 该 存储 器 是 静态 一 致 的 ， 每 个 寄存 器 是 否 
是 静态 一 致 的 ? 请 简略 证 明 ， 或 给 出 一 个 反例 。 

习题 23. 举 出 一 个 例子 ， 其 执行 是 静态 一 致 的 但 不 是 顺序 一 致 的 。 再 举 一 相 反 的 例子 ， 其 执行 是 顺 
序 一 致 的 但 不 是 静态 一 致 的 。 

习题 24. 图 3-13 和 图 3-14 中 的 经 历 是 否 是 静态 一 致 的 、 顺 序 一 致 的 、 可 线性 化 的 ?证 明 你 的 结论 。 
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r.read(1) 
A Pr > 
r.write(1) r.read(2) 
B wane ee eee eee- — = == = - = | je = = = == === > 
r.write(2) 
C s > 
图 3-13 习题 24 的 第 一 个 经 历 
r.read(1) 
Ar a ~ 
r.write(1) r.read(1) 
B wwe 222 eee e eee s aie He ~ 
r.write(2) 
O meme ---------------------------- > 


图 3-14 习题 24 的 第 二 个 经 历 
习题 25. 如 果 从 可 线性 化 性 定义 中 去 掉 条 件 L2， 所 得 的 性 质 是 否 与 顺序 一 致 性 相同 ?解释 其 原因 。 
习题 26. 证 明定 理 3.6.1 中 的 “ 仅 当 ”部 分 。 
习题 27. AtomicInteger 类 (在 java.util.concurrent.atomic 包 中 ) 是 一 个 整 型 值 的 容器 。 它 的 
一 个 方法 为 
boolean compareAndSet(int expect, int update). 
该 方法 将 对 象 的 当前 值 与 预期 值 相 比较 。 若 值 相等 ， 则 用 update 原 子 地 替换 对 象 的 值 并 返 
回 true。 否 则 ， 不 改变 对 象 的 值 并 返回 false。 这 个 类 还 提供 了 
int get() 
该 方法 返回 对 象 的 实际 值 。 
考虑 图 3-15 所 示 的 FIFO 队 列 实现 。 该 队列 使 用 一 个 数组 items 来 存放 元 素 ， 为 简单 起 见 ， 假 
设 该 数组 是 无 界 的 。 队 列 具 有 两 个 AomicInteger 域 ,tail 域 是 下 一 个 将 被 移出 元 素 的 数组 槽 的 
索引 号 ，head 域 是 下 一 个 要 被 存 人 元 素 的 数组 槽 的 索引 号 。 举 一 个 例子 说 明 这 个 实现 是 不 可 线 
性 化 的 。 
习题 28. 考虑 图 3-16 所 示 的 类 。 根 据 你 所 了 解 的 有 关 Java 存 储 器 模型 的 知识 ，reader 方 法 中 会 存在 
被 0 除 的 情形 吗 ? 
习题 29. 下 述 性 质 是 否 等 价 于 对 象 * 是 无 锁 的 ? 
对 于 x 的 任意 一 个 无 限 经 历 瑟 ， 所 有 在 召 中 执行 了 无 限 个 操作 步 的 线程 都 要 完成 无 限 个 方法 
调用 。 
习题 30. 下 述 性 质 是 否 等 价 于 对 象 x 是 无 锁 的 ? 
对 于 x 的 任意 一 个 无 限 经 历 了 HH， 都 有 无 限 个 方法 调用 被 完成 。 
习题 31. 考虑 下 面 这 种 很 少 被 使 用 的 关于 方法 m 的 实现 。 在 所 有 的 经 历 中 ， 一 个 线程 第 i 次 调用 m， 
则 该 调用 在 第 2 步 后 返回 。 该 方法 是 无 等 待 的 吗 ? 是 有 界 无 等 待 的 吗 ? 或 者 都 不 是 ? 
习题 32. 考虑 一 种 队列 实现 (图 3-17)， 其 中 enq() 方 法 没有 可 线性 化 点 。 
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class IQueue<T> { | 
AtomicInteger head = new AtomicInteger(0); 
AtomicInteger tail = new AtomicInteger(0); 
TD items = (T[]) new Object[Integer.MAX VALUE] ; 
public void enq(T x) { 
int slot; 
do { 
slot = tail.get(); 
} while (! tail.compareAndSet(slot, slot+l)); 
items[slot] = x; 


public T deq() throws EmptyException { 

T value; 
int slot; 
do { 

slot = head.get(); 

value = items[slot]; 

if (value == null) 

throw new EmptyException(); 

} while (! head.compareAndSet(slot, slot+l)); 
return value; 





该 队列 使 用 一 个 items 数 组 存放 元 素 ， 为 了 方便 起 见 假设 数组 是 无 界 的 。tail1 域 是 一 个 
AtomicInteger， 初 始 值 为 0。enq( ) 方 法 通过 将 tai1 增 加 1 来 保留 一 个 槽 ， 然 后 在 那个 地 址 存 人 
元 素 。 注 意 ， 这 两 个 步骤 不 是 原子 的 : 在 tai1 被 增加 1 以 后 和 在 元 素 被 存 人 数组 中 之 前 存在 一 个 


时 间 间 隔 。 


deq ) 方 法 读 tai1 的 值 ， 然 后 以 升序 次 序 从 槽 0 到 tail 遍 历数 组 。 对 每 一 个 槽 ， 用 空 值 与 当前 
内 容 交 换 ， 并 返回 第 一 个 非 空 元 素 。 若 所 有 的 槽 都 为 空 ， 重 新 开始 这 个 过 程 。 








图 3-15 IQueue 实 现 





class VolatileExample { 
int x = 0; 
volatile boolean v = false; 
public void writer() { 
x = 42; 
v = true; 


} 


public void reader() { 
if (v == true) { 
int y = 100/x; 





图 3-16 习题 28 的 volatile 域 


给 出 一 个 执行 实例 ， 说 明 enq( ) 的 可 线性 化 点 不 可 能 在 第 15 行 出 现 。 


RT: 给 出 一 个 执行 ， 其 中 两 个 enq( ) 调 用 没有 按照 它们 执行 第 15 行 代码 的 次 序 被 线性 化 。 


给 出 另 一 个 例子 ， 说 明 enq( ) 的 可 线性 化 点 不 可 能 在 第 16 行 出 现 。 


由 于 这 是 enq( ) 中 仅 有 的 两 个 存储 器 访问 操作 ， 可 以 推 知 enq( ) 方 法 没有 单个 可 线性 化 点 。 


这 是 否 意味 着 enq( ) 是 不 可 线性 化 的 呢 ? 
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public class HWQueue<T> { 
AtomicReference<T>[] items; 


AtomicInteger tail; 
static final int CAPACITY = 1024; 


public HWQueue() { 
items =(AtomicReference<T>[] )Array.newInstance(AtomicReference.class, 


CAPACITY); 
for (int i = 0; i < items.length; i++) { 
items[i] = new AtomicReference<T>(nul1); 


} 


tail = new AtomicInteger(0); 
} 


public void enq(T x) { 
int i = tail.getAndIncrement(); 
items[i].set(x); 
} 
public T deq() { 
while (true) { 
int range = tail.get(); 
for (int i = 0; i < range; i++) { 
T value = items[i].getAndSet (null); 
if (value != null) { 
return value; 














图 3-17 Herlihy/WingBA FI] 


习题 33， 证 明 顺 序 一 致 性 是 非 阻 塞 的 。 
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共享 存储 器 基础 





顺序 计算 基础 是 由 Alan Turing 和 Alonzo Church 在 20 世 纪 30 年 代 所 商定 的 ， 他 们 各 自 独 立 
地 提出 联 坷 一 图 灵 论 题 : 能 被 计算 的 所 有 事情 ， 都 能 由 图 灵机 (或 等 价 的 丘 奇 Xx 演算 ) 计算 。 
任何 由 图 灵机 不 能 解 的 问题 (比如 判定 一 个 程序 对 于 任意 的 输入 是 否 会 停机 )， 对 实际 的 计算 
设备 也 是 不 可 解 的 。 图 灵 论 题 是 一 个 论题 而 不 是 定理 ， 因 为 “什么 是 可 计算 的 ”这 一 概念 不 
可 能 用 精确 的 、 数 学 上 严谨 的 方式 来 定义 。 尽 管 如 此 ， 几 乎 所 有 人 都 相信 图 灵 论 题 。 

本 章 讲述 共享 存储 器 并 发 计算 的 基本 概念 。 一 个 共享 存储 器 的 计算 由 多 个 线程 构成 ， 每 
个 线程 自身 是 一 个 顺序 程序 。 它 们 相互 之 间 通 过 调用 驻 留 在 共享 存储 器 中 的 对 象 进行 通信 。 
线程 是 异步 的 ， 它 们 各 自 以 不同 的 速度 执行 ， 且 在 任意 时 刻 可 以 停止 一 个 不 可 预测 的 时 间 间 
隔 。 这 种 异步 概念 反映 了 现代 多 处 理 器 系统 结构 的 实际 情形 ， 线 程 时 延 是 不 可 预测 的 ， 从 微 
秒 级 (cache 缺失 ) 到 毫秒 (页 故障 )、 秒 级 (调度 中 断 )。 

顺序 计算 性 理论 的 发 展 分 可 为 多 个 阶段 。 最 初 是 有 穷 自动 机 ， 随 后 是 下 推 自动 机 ， 最 后 以 图 灵 
机 到 达 顶 峰 。 我 们 也 同样 分 阶段 地 研究 并 发 计算 模型 。 本 章 从 最 简单 的 共享 存储 器 计算 模式 开始 : 
并 发 线程 对 共享 存储 单元 执行 简单 的 读 / 写 操作 。 出 于 历史 上 的 原因 ,共享 存储 单元 也 可 称 为 寄存 器 。 
首先 讲述 简单 的 寄存 器 ， 再 进一步 说 明 如 何 利用 这 些 简单 寄存 器 来 构造 一 系列 更 为 复杂 的 寄存 器 。 

传统 的 顺序 计算 性 理论 (大 多 数 ) 不 考虑 效率 因素 : 要 说 明 一 个 问题 是 可 计算 的 ， 只 需 
说 明 该 问题 能 用 图 灵机 来 解决 就 足够 了 。 很 少 考虑 如 何 去 提 高 图 灵机 的 效率 ， 因 为 图 灵机 并 
不 是 一 种 实际 的 计算 工具 。 同 样 ， 在 并 发 计算 理论 的 研究 中 ， 我 们 无 需 掌 握 如 何 构造 高 效 的 
寄存 器 ， 而 是 着 重 理解 这 样 的 构造 是 否 存在 以 及 它们 是 如 何 工作 的 。 我 们 没有 将 它们 作为 实 
际 的 计算 模型 。 本 章 内 容 侧 重 于 易于 理解 但 效率 不 高 的 寄存 器 构造 ， 而 不 考虑 结构 复杂 但 效 
率 较 高 的 构造 。 在 所 讲述 的 一 些 构造 中 ， 特 别 使 用 了 时 间 稚 (计数 器 值 ) 来 区 分 新 值 与 旧 值 。 

时 间 惟 的 问题 在 于 它们 是 无 界 增长 的 ， 最 终 会 超出 任意 固定 大 小 的 变量 。 有 界 的 解决 方 
R 〈 比 如 第 2 章 2.7 节 中 的 例子 ) 更 能 满足 实际 的 需求 (可 论证 的 )， 希 望 读者 通过 本 章 注 释 提 
供 的 参考 资料 深入 研究 。 本 章 关注 简单 的 无 界 结 构 ， 这 样 可 以 避免 读者 的 注意 力 被 更 多 技巧 
性 的 内 容 所 分 散 ， 以 便 更 好 地 掌握 并 发 程序 设计 的 基本 原理 。 
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在 硬件 层 ， 线 程 是 通过 读 / 写 共享 存储 器 进行 通信 的 。 理 解 线程 间 相 互通 信 的 一 种 办 法 就 
是 对 硬件 原 语 进行 抽象 ， 把 通信 看 作 是 通过 读 / 写 并 发 共享 对 象 实现 的 。 第 3 章 给 出 了 共享 对 
象 的 详细 描述 。 现 在 ， 回 顾 对 象 设计 中 的 两 个 关键 特性 : 安全 性 和 活性 ， 前 者 由 一 致 性 条 件 
定义 ， 后 者 由 演进 性 条 件 定义 。 

读 / 写 寄存 器 (或 寄存 器 ) 是 一 个 将 值 封装 起 来 的 对 象 ， 且 只 能 通过 read( ) 调 用 读 取 这 个 
值 ， 通 过 write( ) 调 用 来 修改 该 值 〈 在 实际 的 系统 中 称 这 些 方法 调用 为 加 载 / 存 储 ) 。 图 4-1 描 
述 了 所 有 寄存 器 都 具有 的 接口 Register<T>。 值 的 类 型 T 可 以 是 布尔 型 、 整 型 或 者 是 对 另 一 个 
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对 象 的 引用 。 具 有 Register< 布 尔 型 > 接口 的 寄存 器 称 为 布尔 寄存 器 (有 时 用 1 和 0 代表 true 和 
Jolse)。 具 有 Register< 整 型 > 接口 且 值 在 范围 M 内 的 寄存 器 称 为 M- 值 寄存 器 。 本 章 不 再 讨论 
其 他 类 型 的 寄存 器 ， 而 是 将 引用 看 作 整 数 ， 从 而 使 得 任何 针对 整 型 寄存 器 的 算法 都 能 够 用 于 
具有 引用 类 型 寄存 器 的 实现 中 。 





1 public interface Register<T> { 
2 T read(); 

3 void write(T v); 

4 } 





图 4-1 Register<T>#2 0 
如 果 方 法 调用 之 间 没 有 重 又 ， 那 么 寄存 器 的 实现 应 呈现 出 如 图 4-2 所 示 的 行为 。 然 而 在 多 


处 理 器 中 ， 我 们 希望 方法 调用 在 任何 时 候 都 是 重 又 的 ， 因 此 需要 规范 化 地 说 明 什么 是 并 发 的 
方法 调用 。 





public class SequentialRegister<T> implements Register<T> { 
private T value; 
public T read() { 
return value; 


public void write(T v) { 
value = v; 


— 








图 4-2 SequentialRegister2é 


一 种 说 明 方式 就 是 依靠 互 斥 来 定义 并 发 方法 调用 : 使 用 互 斥 锁 来 保护 每 个 寄存 器 ， 要 求 
每 一 次 read( ) 和 write( ) 调 用 都 必须 首先 获得 这 个 锁 。 然 而 不 幸 的 是 , 在 多 处 理 器 系统 结构 中 ， 
不 能 使 用 互 斥 来 实现 共享 对 象 的 并 发 调用 。 首 先 ， 第 2 章 讲述 了 如 何 利 用 寄存 器 实现 互 斥 ， 因 
此 ， 再 通过 互 斥 来 实现 寄存 器 已 几乎 没有 任何 意义 。 其 次 ， 第 3 章 已 指出 ， 若 通过 互 斥 来 实现 
寄存 器 ， 即 使 这 种 实现 是 无 死 锁 或 无 饥饿 的 ， 计 算 的 演进 仍然 依赖 于 操作 系统 的 调度 器 ， 要 
通过 调度 器 来 保证 线程 不 会 在 临界 区 内 阻塞 。 由 于 我 们 要 用 共享 对 象 来 检验 并 发 计算 的 基础 
构造 块 ， 所 以 ， 让 一 个 单独 的 实体 来 提供 关键 的 演进 特性 将 不 会 有 任何 意义 。 

下 面 介绍 另外 一 种 说 明 方 式 。 回 顾 前 面 所 讲 过 的 内 容 ， 如 果 对 象 的 每 个 方法 调用 都 能 在 
有 限 步 内 完成 ， 并 且 每 个 方法 的 调用 执行 都 与 它 和 其 他 并 发 的 方法 调用 之 间 的 交互 无 关 ， 则 
称 这 个 对 象 的 实现 是 无 等 待 的 。 无 等 待 条 件 看 上 去 简单 自然 ， 但 却 具有 很 深 的 含义 。 特 别 是 
它 排除 了 任何 形式 的 互 斥 ， 能 够 保证 独立 地 演进 ， 也 就 是 说 ， 不 依赖 于 操作 系统 的 调度 器 。 
因此 ， 通 常 要 求 寄存 器 的 实现 应 是 无 等 待 的 。8 

所 谓 原子 寄存器 就 是 图 4-2 中 顺序 寄存 器 类 的 一 种 可 线性 化 的 实现 。 非 形式 化 地 讲 ， 原 子 
寄存 器 的 行为 如 同 我 们 所 期 望 的 一 样 : 每 一 个 读 操作 都 返回 “最 后 ”一 次 写 入 的 值 。 各 个 线 
程 通过 读 / 写 原子 寄存 器 进行 通信 的 模型 显然 具有 吸引 力 ， 该 模型 很 久 以 来 一 直 作为 并 发 计算 
的 标准 模型 。 

规范 说 明 读者 和 写 者 的 个 数 也 是 非常 重要 的 。 显 然 ， 支 持 单 读者 -- 单 写 者 的 寄存 器 实现 比 





O “一 个 无 等 待 的 实现 也 是 无 锁 的 。 
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支持 多 读者 -多 写 者 的 寄存 器 实现 要 容易 一 些 。 为 简单 起 见 ， 下 面 用 SRSW 表 示 “ 单 读者 一 单 
写 者 ”"， 用 MRSW 表 示 “ 多 读者 一 单 写 者 ”"， 用 MRMW 表 示 “ 多 读者 一 多 写 者 ”。 
本 章 主要 研究 下 述 基 本 问题 : 
采用 我 们 定义 的 功能 最 强 的 寄存 器 所 实现 的 数据 结构 是 否 也 能 通过 最 弱 的 寄存 器 来 
实现 ? 

回顾 第 1 章 中 所 讲 的 ， 线 程 之 间 任 何 一 种 可 用 的 通信 方式 必定 是 持续 的 : 消息 发 送 的 持续 
时 间 比 发 送 者 的 主动 参与 时 间 更 长 。 这 种 持续 同步 的 最 弱 形式 就 是 (可 论证 ) 要 能 在 共享 存 
储 器 中 设置 一 个 持续 位 ， 而 同步 的 最 弱 形 式 则 是 什么 都 没有 (不 可 论证 ): 如 果 设 置 一 个 位 的 
动作 与 读 这 个 位 的 动作 间 没 有 重 琶 ， 那 么 读 到 的 值 与 写 入 的 值 是 一 致 的 。 否 则 ， 重 从 的 读 与 
写 可 以 返回 任意 值 。 

不 同类 型 的 寄存 器 能 够 作出 不 同 的 保障 ， 从 而 使 寄存 器 具有 更 强 或 更 弱 的 能 力 。 例 如 ， 
寄存 器 可 以 在 它们 所 封装 值 的 范围 上 有 所 差异 (布尔 寄存 器 和 M- 值 寄存 器 ) ， 它 们 能 支持 的 读 
者 和 写 者 的 个 数 有 可 能 不 同 ， 它 们 所 提供 的 一 致 性 程度 也 可 能 不 同 。 

一 个 单 写 者 一 多 读者 寄存 器 的 实现 是 安全 的 ， 如 果 

。 与 write( ) 调 用 不 相 重 又 的 read( ) 调 用 ， 其 返回 值 是 最 近 一 次 write() 调 用 所 写 入 的 值 。 

。 如 果 read( ) 调 用 与 write( ) 调 用 相 重 又 ， 则 read( ) 调 用 可 以 返回 该 寄存 器 所 允许 范围 内 

的 任意 值 ( 例 如， 对 于 M- 值 寄存 器 是 从 0 到 M 一 1 中 的 任意 值 )。 

注意 ,“ 安 全 ”一 词 是 历史 的 偶然 。 它 们 提供 的 保证 其 实 是 很 弱 的 ,“ 安 全 ”的 寄存 器 实 
际 上 非常 不 安全 。 

考虑 图 4-3 所 示 的 经 历 。 如 果 寄 存 器 是 安全 的 ， 那 么 三 个 读 调用 的 行为 应 该 如 下 : 

。R' 返 回 最 近 一 次 写 入 的 值 0。 

。R" 和 R* 与 W(1) 是 并 发 执行 的 ， 所 以 可 以 返回 寄存 器 允许 范围 内 的 任意 值 。 


R'() R°) R30) 
-~---~-----~-~-~---~------ ee ee ie — — — — — — — — pe 
w(0) W(1) 
二- He > 


图 4-3 一 个 单 读者 一 单 写 者 寄存 器 的 执行 过 程 ，R' 表 示 第 i 次 读 ，W(v) 表 示 写 值 "。 时 间 自 
左 向 右 。 无 论 寄存 器 是 否 是 安全 的 、 规 则 的 或 者 原子 的 ，R! 必 定 返 回 最 近 一 次 写 入 
的 值 0。 若 寄存 器 是 安全 的 ， 则 由 于 R? 和 RR 与 W(1) 是 并 发 的 ， 它 们 可 以 返回 寄存 器 
允许 范围 内 的 任意 值 。 若 寄存 器 是 规则 的 ，R? 和 RR 可 能 都 返回 0 或 者 1。 若 寄存 器 是 
原子 的 ， 那 么 当 尼 返回 1 时 尺 也 必然 返回 1， 尺 返回 0 时 R 可 能 返回 0 也 可 能 返回 1 


下 面 定义 一 种 介 于 安全 寄存 器 和 原子 寄存 器 之 间 的 一 致 性 标准 ， 以 便于 说 明 问 题 。 规 则 
寄存 器 是 一 种 多 读者 - 单 写 者 寄存 器 ， 其 中 写 操作 不 是 原子 的 。 当 write( ) 调 用 正在 执行 的 时 
候 ， 若 旧 值 还 没有 完全 被 新 值 所 替代 ， 那 么 读 到 的 值 有 可 能 在 旧 值 和 新 值 之 间 “ 闪 动 ”。 更 确 
切 地 说 : 

。 规 则 寄存 器 是 安全 的 ， 因 此 任意 一 个 不 与 write( ) 调 用 相 重 又 的 read( ) 调 用 都 返回 最 近 

一 次 被 写 入 的 值 。 

* 假设 一 个 read( ) 调 用 与 一 个 或 多 个 write( ) 调 用 重合 。 令 ww 是 最 后 一 次 write( ) 调 用 所 写 
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入 的 值 ，v*"，…，v 为 重 倒 的 write( ) 调 用 所 写 入 的 值 的 序列 。 那 么 ，read( ) 调 用 有 可 

能 返回 任意 的 值 w”(i 从 0 到 k)。 

对 于 图 4-3 所 示 的 执行 过 程 ， 一 个 单 读 者 规则 寄存 器 可 能 会 有 如 下 的 行为 ; 

。R' 返 回 旧 值 0。 

“R 和 R 可 能 都 返回 旧 值 0， 或 者 新 值 1。 

规则 寄存 器 必定 是 静态 一 致 的 (第 3 章 ) ， 但 反 过 来 不 成 立 。 安 全 和 规则 寄存 器 只 允许 一 
个 单 写 者 线程 使 用 。 注 意 ， 规 则 寄存 器 是 静态 一 致 的 单 写 者 顺序 寄存 器 。 

对 于 单 读者 一 单 写 者 原子 寄存 器 ， 图 4-3 所 示 的 执行 过 程 可 能 产生 如 下 的 结果 : 

。R' 返 回 旧 值 0。 

° AR Kl, WIR 3K E1. 

“ 若 R 返回 0， 则 及 可 能 返回 0， 也 可 能 返回 1。 

图 4-4 是 一 个 各 种 寄存 器 的 三 维 示意 图 : 其 中 ， 一 个 维 定义 了 寄存 器 的 大 小 ， 另 一 个 维 定 
义 了 读者 和 写 者 的 个 数 ， 而 第 三 个 维 定义 了 寄存 器 的 一 致 性 特性 。 该 示意 图 不 能 完全 照 字面 
来 看 : 其 中 有 多 种 联系 是 没有 意义 的 ， 例 如 多 写 者 安全 寄存 器 。 

为 了 便于 分 析 规 则 和 原子 寄存 器 的 实现 算法 ， 可 
以 直接 使 用 对 象 经 历来 重新 进行 定义 。 从 现在 开始 
只 考虑 这 样 的 经 历 ， 各 个 read() 调 用 返回 的 值 必定 
是 被 某 个 write() 调 用 写 入 的 值 (规则 和 原子 寄存 器 
不 允许 读 操作 虚构 返回 值 ) 。 假 设 读 或 写 的 值 都 是 唯 MRSW 
一 的 。 © 

回顾 前 面 所 讲 内 容 ， 对 象 经 历 是 由 调用 事件 和 响 
应 事件 所 组 成 的 一 个 序列 ， 当 一 个 线程 调用 某 个 方 
法 时 发 生 调 用 事件 ， 当 该 调用 返回 时 发 生 与 之 匹配 
的 响应 事件 。 方 法 调用 (简称 调用 ) 是 指 匹配 的 调 原子 
用 事件 和 响应 事件 之 间 的 时 间 间 隔 。 对 任意 一 个 经 图 4-4 基于 读 / 写 寄 存 器 实现 的 二 维 空间 
历 ， 必 定 存在 着 一 个 关于 方法 调用 的 偏 序 关系 “一 ”， 
可 按 如 下 方式 来 定义 : 对 于 方法 调用 mo 和 mi,， 如 果 mo 的 响应 事件 先 于 m 的 调用 事件 ， 则 mo 一 
mi。( 完 整 的 定义 见 第 3 章 。) 

任意 一 种 寄存 器 实现 (无论 是 安全 的 、 规 则 的 还 是 原子 的 ) 都 可 以 在 write() 调 用 上 定义 
一 个 全 序 关 系 ， 称 这 种 关系 为 写 次 序 ， 用 来 表示 寄存 器 中 写 操作 “生效 ”的 次 序 。 对 于 安全 
和 规则 寄存 器 ， 写 次 序 并 不 重要 ， 因 为 它们 一 次 只 允许 一 个 写 者 。 而 在 原子 寄存 器 中 ， 所 有 
的 方法 调用 具有 一 个 可 线性 化 的 次 序 。 那 么 ， 我 们 可 以 使 用 这 个 次 序 来 索引 写 调用 ， 写 调用 
WA 为 第 一 个 ，W' 为 第 二 个 ， 以 此 类 推 。 注 意 ， 对 于 SRSW 或 MRSW 安 全 寄存 器 或 规则 寄存 器 
来 说 ， 写 次 序 与 先 于 次 序 是 完全 一 致 的 。 

FAR 表示 返回 值 为 ” 的 读 调用 ， 其 中 vi 是 由 W 所 写 入 的 唯一 值 。 注 意 ， 一 个 经 历 中 只 包含 
一 个 WW 调用 ,但 可 以 包含 多 个 R' 调 用 。 





规则 








日 ”如 果 值 本 身 不 是 唯一 的 ， 我 们 可 以 利用 一 种 标准 方法 ， 即 为 每 个 值 附 加 一 个 算法 可 见 的 辅助 值 ， 该 值 仅 在 
辨别 各 个 值 的 过 程 中 有 用 。 
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可 以 证 明 下 面 的 条 件 能 够 准确 地 描述 规则 寄存 器 。 首 先 ， 读 调用 不 会 返回 将 来 的 值 : 


绝 不 可 能 存在 R W' (4.1.1) 
其 次 ， 读 调用 不 会 返回 更 远 的 过 去 值 ， 即 先 于 最 近 一 次 写 的 且 没 有 重叠 的 值 ， 
对 于 某 个 值 j， 绝 不 会 存在 W 一 W 一 R (4.1.2) 


为 了 证 明 一 种 寄存 器 的 实现 是 规则 的 ， 必 须 证 明 该 寄存 器 的 经 历 满足 条 件 (4.1.1) 和 
(4.1.2), 
原子 寄存 器 还 要 满足 另 一 个 附加 条 件 : 
若 Ri 一 R， 则 i<j (4.1.3) 
这 个 条 件 表明 较 早 的 读 操 作 的 返回 值 决 不 能 比较 晚 的 读 操 作 的 返回 值 更 晚 。 规 则 寄存 器 不 需 
要 满足 条 件 (4.1.3)。 为 了 证 明 一 种 寄存 器 的 实现 是 原子 的 ， 首 先 要 定义 一 个 写 次 序 ， 然 后 证 
明 其 经 历 满 足 条 件 (4.1.1) ~ (4.1.3). 


4.2 寄存 器 构造 


下 面 讨论 如 何 利 用 简单 的 单 读 者 一 单 写 者 安全 布尔 寄存 器 来 实现 功能 更 加 强大 的 寄存 器 。 
在 这 些 构 造 中 ， 我 们 都 假定 所 有 读 / 写 寄 存 器 的 类 型 是 等 价 的 ， 至 少 从 可 计算 性 的 角度 来 说 是 
这 样 的 。 下 面 考虑 通过 较 弱 的 寄存 器 所 实现 的 具有 较 强 功能 的 寄存 器 的 构造 序列 。 

图 4-5 列 出 了 这 种 构造 的 序列 。 


基 类 实现 的 类 
SRSW 安 全 寄存 器 MBSW 安 全 寄存 器 





















MRSW 安 全 布尔 寄存 器 MRMW 规 则 布尔 寄存 器 
MRSW 规 则 布尔 寄存 器 MRSW 规 则 寄存 器 
MRSW 规 则 寄存 器 SRSW 原 子 寄存 器 
SRSW 原 子 寄存 器 MRSW 原 子 寄存 器 
MRSW 原 子 寄存 器 MRMW 原 子 寄存 器 
MRSW 原 子 寄 存 器 原子 快照 





图 4-5 寄存 器 的 构造 序列 


我 们 来 解释 一 下 表 中 的 最 后 一 行 ， 用 原子 寄存 器 (也 是 安全 寄存 器 ) 实现 的 原子 快照 : 
这 是 一 种 由 不 同 的 线程 所 写 的 MRSW 寄 存 器 数组 ， 但 能 被 任何 线程 原子 地 读 。 上 述 某 些 构造 
的 功能 要 比 实现 派生 序列 所 需 的 功能 更 为 强大 (例如 ， 不 需要 为 规则 和 安全 寄存 器 提供 多 读 
者 特性 ， 就 可 以 实现 SRSW 原 子 寄存 器 的 衍生 )。 之 所 以 把 它们 列 出 来 ， 是 因为 这 个 构造 序列 
能 提供 一 些 有 价值 的 帮助 。 

书 中 的 代码 示例 遵循 下 面 一 些 规 约 。 在 描述 实现 特定 类 型 的 寄存 器 算法 时 (例如 ， 一 个 
安全 的 MRSW 布 尔 寄 存 器 )， 往 往 用 如 下 的 形式 来 表示 : 


class SafeMRSWBooleanRegister implements Register<Boolean> 


‘a 
虽然 这 样 会 使 得 要 被 实现 的 寄存 器 类 的 特性 非常 清晰 ， 但 若 用 它们 来 实现 其 他 的 类 则 显得 非 
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常 烦琐 。 因 此 ， 当 描述 类 的 实现 时 ， 我 们 使 用 下 面 的 约定 来 说 明 一 个 具体 的 域 是 否 是 安全 的 、 
规则 的 或 者 原子 的 。 以 一 个 mumb1e 域 为 例 ， 若 它 是 安全 的 ， 则 称 为 s_mumb1e， 若 它 是 规则 
W, Mrr mumble; 若是 原子 的 ， 则 称 为 a_mumb1e。 该 域 的 其 他 方面 ， 如 它 的 类 型 或 它 
是 否 支持 多 读者 或 多 写 者 ， 都 将 在 代码 中 以 注释 的 形式 给 出 ， 并 且 从 上 下 文 来 看 应 该 是 语义 
清晰 的 。 


4.2.1 MRSW 安 全 寄存 器 
图 4-6 描 述 了 如 何 使 用 安全 的 SRSW 寄 存 器 构造 安全 的 MRSW 寄 存 器 





public class SafeBooleanMRSWRegister implements Register<Boolean> { 
boolean[] s table; // array of safe SRSW registers 
public SafeBooleanMRSWRegister(int capacity) { 
s_table = new boolean[capacity]; 


} 
public Boolean read() { 
return s_table[ThreadID.get()]; 


public void write(Boolean x) { 
for (int i = 0; i < s_table. length; i++) 
s_table[i] = x; 
} 


J 
图 4-6 SafeBooleanMRSWRegister 类 : 一 种 安全 的 布尔 MRSW 寄 存 器 
引 理 4.2.1 图 4-6 中 的 构造 是 一 种 MRSW 安 全 寄存 器 。 
证 明 者 线程 4 的 read( ) 调 用 不 与 任何 write( ) 调 用 重 琶 ， 那 么 该 read( ) 调 用 返回 最 近 
一 次 写 入 的 s_table[A] 的 值 。 对 于 重 又 的 方法 调用 ， 由 于 寄存 器 是 安全 的 ， 读 者 可 以 返回 任 
意 值 。 


4.2.2 MRSW 规 则 布尔 寄存 
图 4- 0 。 对 于 布尔 寄 


— 
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1 public class RegBooleanMRSWRegister implements Register<Boolean> { 
2 ThreadLocal<Boolean> last; 

3 boolean s_value; // safe MRSW register 

4 RegBooleanMRSWRegister(int capacity) { 

5 last = new ThreadLocal<Boolean>() { 

6 protected Boolean initialValue() { return false; }; 

7 ; 
8 } 


9 public void write(Boolean x) { 








10 if (x {= last.get()) { 
11 last.set(x); 

12 s_value =x; 

13 } 

14 } 

15 public Boolean read() { 
16 return s_value; 

17 } 

18 } 





图 4-7 RegBooleanMRSWRegister2k: 用 MRSW 安 全 布尔 寄存 器 所 构造 的 MRSW 规 则 布尔 寄存 器 


56 第 一 部 分 R 理 


存 器 而 言 ， 只 有 当 要 写 入 的 新 值 x 与 旧 值 一 样 时 ， 安 全 的 布尔 寄存 器 与 规则 的 布尔 寄存 器 之 间 
才 会 有 区 别 。 规 则 寄存 器 只 能 返回 r+， 而 安全 寄存 器 则 可 以 返回 任 一 个 布尔 值 。 因 此 ， 只 要 确 
保 写 入 的 新 值 与 原先 写 入 的 值 不 同时 才 人 允许 修改 ， 就 可 以 解决 这 个 问题 。 
[78 | 引 理 4.2.2 ”图 4-7 中 的 构造 是 一 种 MRSW 规 则 布尔 寄存 器 。 
证 明 如果 一 个 read( ) 调 用 不 与 任何 write( ) 调 用 重 登 ， 则 返回 最 近 一 次 写 入 的 值 。 若 调 
用 间 有 重 登 ， 则 要 考虑 以 下 两 种 情况 。 
。 如 果 要 被 写 和 的 值 与 最 后 一 次 写 人 的 值 相 同 ， 那 么 写 者 不 对 该 安全 寄存 器 写 ， 从 而 确保 
读者 读 到 正确 的 值 。 
。 如 果 要 被 写 入 的 值 与 最 后 一 次 写 入 的 值 不 同 ， 则 由 于 寄存 器 是 布尔 的 ， 那 么 值 必定 为 
true 或 false。 并 发 的 读者 将 返回 寄存 器 取 值 范围 内 的 某 个 值 ， 或 者 是 true 或 者 是 false， 
且 都 是 正确 的 。 














4.2.3 ”MM- 值 MRSW 规 则 寄存 器 


如 果 不 考 虑 效率 会 变 得 非常 低 ， 那 么 从 布尔 寄存 器 转变 到 M- 值 寄存 器 是 很 容易 的 ; 使 用 
一 元 符号 表示 值 。 在 图 4-8 的 实现 中 ， 将 M- 值 寄存 器 看 作 是 一 个 由 M 个 布尔 寡 存 器 组 成 的 数组 。 
寄存 器 的 初始 值 为 0， 通 过 将 第 0 位 设置 为 true 来 表示 。 若 一 个 写 方法 要 写 值 x， 则 在 数组 单元 x 
处 写 信 true， 然 后 按照 数组 索引 的 降序 次 序 将 所 有 比 x 低 的 单元 都 设 为 名 lse。 而 对 于 读 方法 ， 
则 按照 索引 的 升序 次 序 读 取 数 组 单元 的 值 ， 直 到 在 单元 i 第 一 次 读 到 true 值 ， 然 后 返回 i。 图 4-9 
描述 了 一 个 8- 值 寄存 器 。 
public class RegMRSWRegister implements Register<Byte> { 
private static int RANGE = Byte.MAX VALUE ~ Byte.MIN VALUE + 1; 
boolean[] r_bit = new boolean[RANGE]; // regular boolean MRSW 
public RegMRSWRegister(int capacity) { 
for (int i = 1; i < r_bit.length; i++) 
r_bit[i] = false; 
r_bit[0] = true; 





public void write(Byte x) { 
r_bit[x] = true; 
for (int i = x - 1; i >= 0; i--) 
r_bit{i] = false; 


public Byte read() { 
for (int i = 0; i < RANGE; i++) 
if (r_bit[i]) { 
return i; 


return -1; // impossible 








图 4-8 RegMRSWRegister 类 : 一 个 MRSW 的 M- 值 规则 寄存 器 


引 理 4.2.3 ”在 图 4-8 所 示 的 构造 中 ，read( ) 调 用 总 能 返回 一 个 值 ， 该 值 对 应 于 0 到 M-1 之 
间 由 某 个 write() 调 用 所 设置 的 一 个 位 。 
证 明 ”下面 的 性 质 是 不 变 的 : 车 一 个 读者 正在 读 r_bit[ 刀 ， 则 必定 有 某 个 索引 号 大 于 等 于 
j 的 位 被 一 个 write( ) 调 用 设置 为 1rue。 
当 寄 存 器 初始 化 时 没有 读者 ， 构 造 函 数 (此 构造 函数 的 调用 被 看 作 是 一 个 write(0) 调 用 ) 
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将 bit[0] 设 为 rwue。 现 假设 有 一 个 读者 正在 读 r_bit[ 尹 ， 并 且 r_bit[ 和 为 true (k>j), BA, 
© AeA ASHER +1, Milr_bitl A false, MAL (M-AR FREF HIREA rrue), 
* 仅 当 写 者 将 一 个 更 高 的 位 r_bit[ 8] (e>k) 设 为 true 时 才 清 除 r_bit[k] 的 值 。 
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aaa 写 者 
图 4-9 RegMRSWRegister 类 : 8- 值 的 MRSW 规 则 寄存 器 的 执行 。1 和 0 分 别 代 表 true 和 false。 
在 a 中 ， 写 之 前 的 值 为 4， 线 程 R 无 法 读 到 线程 W 写 入 的 值 7， 因 为 在 线程 W 将 false 值 
重新 写 人 数组 项 4 之 前 ， 线 程 R 已 到 达 该 位 置 。 在 b 中 ， 在 读数 组 项 4 之 前 该 位 置 已 
被 W 重 写 ， 所 以 读 操 作 返 回 7。 在 c 中 ，W 准 备 写 入 5， 由 于 W 在 数组 项 5 被 读 之 前 已 
对 其 写 入 ， 因 此 即使 数组 项 7 的 值 为 true， 读 者 依然 返回 5 


引 理 4.2.4 图 4-8 中 的 构造 是 一 种 M- 值 的 MRSW 规 则 寄存 器 。 
证 明 ”对 任意 的 读 操作 ， 令 x 是 由 最 近 一 次 与 之 不 相 重 释 的 write( ) 方 法 所 写 入 的 值 。 当 
write ) 完 成 时 ，a_bit[x] 已 被 设置 为 true， 且 对 所 有 的 i<x，a_bit[i] 都 为 false。 由 引 理 4.2.3 
可 知 ， 如 果 读 者 返回 一 个 不 等 于 x 的 值 ， 则 它 已 观察 到 某 个 a_bit[ 有 四 (j 关 x) 为 true， 这 个 位 必 
定 是 由 一 个 并 发 的 写 操作 所 写 的 ， 从 而 证 明了 条 件 (4.1.1) 和 (4.1.2)。 口 


4.2.4 SRSW 原 子 青 存 器 


首先 说 明 如 何 使 用 SRSW 规 则 寄存 器 来 构造 SRSW 原 子 寄存 器 。( 使 用 无 界 时 间 戳 来 构造 。) 

规则 寄存 器 满足 条 件 (4.1.1) 和 (4.1.2) ， 原 子 寄存 器 还 需要 满足 条 件 (4.1.3), AF 
SRSW 规 则 寄存 器 不 存在 并 发 的 读 ， 所 以 违背 条 件 (4.1.3) 的 唯一 情形 就 是 : 两 个 读 与 同一 
个 写 重 登 且 读 到 次 序 颠 倒 的 值 ， 第 一 个 读 返 回 v'， 而 第 二 个 读 返 回 w， 其 中 j<i。 

图 4-10 摘 述 了 一 个 关于 值 的 类 ， 其 中 每 个 值 都 附 有 一 个 时 间 惟 标签 。 图 4-11 所 示 的 
AtomicSRSWRegister 实 现 使 用 这 些 标签 对 写 调用 进行 排序 ， 从 而 使 并 发 的 读 调用 能 够 正确 地 
确定 次 序 。 每 个 读 必须 记 住 它 所 读 过 的 最 后 一 个 〈 最 高 的 时 间 戳 ) Et, AUS 
所 使 用 。 如 果 一 个 较 晚 的 读 随后 读 到 一 个 较 早 的 值 (时 间 惟 较 低 ) ， 那 么 它 将 忽略 这 个 值 并 使 
用 所 记 住 的 最 后 值 。 同 样 ， 写 者 也 应 该 记 住 它 所 写 的 最 后 一 个 时 间 截 ， 并 用 一 个 更 加 晚 的 时 
HE 〈 比 前 一 个 时 间 惟 大 1) 来 标记 每 个 要 被 写 和 人 的 新 值 。 
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public class StampedValue<T> { 
public long stamp; 





1 

2 

3 public T value; 

4 // initial value with zero timestamp 

5 public StampedValue(T init) { 

6 stamp = 0; 

7 value = init; 

8 } 

9 // later values with timestamp provided 
10 public StampedValue(long stamp, T value) { 
11 stamp = stamp; 

12 value = value; 

13 } 

14 public static StampedValue max(StampedValue x, StampedValue y) { 
15 if (x.stamp > y.stamp) { 

16 return x; 

17 } else { 

18 return y; 

19 } 

20 } 

21 public static StampedValue MIN VALUE = 
22 new StampedValue(null); 

23} 











图 4-10 Stampedyalue<T> 类 : 允许 一 个 时 间 惟 和 一 个 值 一 起 被 读 或 写 


该 算法 要 求 系统 具有 能 将 一 个 值 和 时 间 惟 作为 独立 的 单元 进行 读 / 写 的 能 力 。 在 类 似 C 这 样 
的 语言 中 ， 可 以 将 值 和 时 间 戳 一 起 看 作 是 不 需 解释 的 位 ， 通 过 移 位 和 逻辑 屏蔽 将 这 两 个 值 打包 / 
80 | ” 解 包 到 一 个 或 多 个 字 中 。 在 Java 中 ， 可 以 很 容易 地 创建 一 个 具有 时 间 蕉 / 值 对 的 StampedValue<Ty 
81) 结构， 并 且 在 寄存 器 中 存放 这 个 结构 的 引用 。 
引 理 4.2.5 图 4-11 中 的 构造 是 一 种 SRSW 原 子 寄 存 器 。 


public class AtomicSRSWRegister<T> implements Register<T> { 
ThreadLocal<Long> lastStamp; 
ThreadLocal<StampedValue<T>> lastRead; 
StampedValue<T> r_value; // regular SRSW timestamp-value pair 
public AtomicSRSWRegister(T init) { 
r_value = new StampedValue<T>(init); 
lastStamp = new ThreadLocal<Long>() { 
protected Long initialValue() { return 0; }; 
F; 
lastRead = new ThreadLocal<StampedValue<T>>{) { 
protected StampedValue<T> initialValue() { return r_value; }; 


}; 








} 

public T read() { 
StampedValue<T> value = r_value; 
StampedValue<T> last = lastRead.get(); 
StampedValue<T> result = StampedValue.max(value, last); 
lastRead.set (result); 
return result.value; 

} 

public void write(T v) { 
long stamp = lastStamp.get() + 1; 
r_value = new StampedValue(stamp, v); 
lastStamp.set (stamp); 

} 











图 4-11 AtomicSRSWRegister2k; 使 用 SRSW 规 则 寄存 器 构造 的 SRSW 原 子 寄 存 器 
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证 明 因为 该 寄存 器 是 规则 的 ， 所 以 它 满足 条 件 (4.1.1) 和 (4.1.2), RAWAM AR 
写 操作 是 全 局 的 ， 且 当 一 个 读 操作 要 返回 一 个 值 时 ， 由 于 较 早 写 入 的 值 具有 较 低 的 时 间 惟 ， 


所 以 较 晚 的 读 操 作 不 可 能 读 到 较 早 写 的 值 。 所 以 ， 此 算法 也 满足 条 件 (4.1.3). 
4.2.5 MRSW 原 子 寄存 器 


为 了 理解 如 何 使 用 SRSW 原 子 寄存 器 来 构造 MRSW 原 子 寄存 器 ， 先 来 考虑 一 种 直接 利用 
4.2.1 节 中 将 SRSW 寄 存 器 改造 为 MRSW 安 全 寄存 器 的 算法 进行 构造 的 简单 办 法 。 让 组 成 数组 
a_table[0...n 一 1] 的 SRSW 和 寄存器 为 原子 的 而 不 是 安全 的 ， 并 且 所 有 其 他 的 调用 都 遵循 ， 写 者 
以 索引 号 递增 的 次 序 写 数组 单元 ， 然 后 ， 每 个 读者 进行 读 并 返回 相应 的 数组 项 。 但 这 样 所 得 

的 结果 并 不 是 一 个 多 读者 原子 寄存 器 。 因 为 每 个 读者 都 是 从 一 个 原子 寄存 器 中 读 ， 所 以 条 件 
(4.1.3) 对 单 读 者 情形 是 成 立 的 ， 但 对 于 多 个 不 同 的 读者 ， 该 条 件 并 不 成 立 。 例 如 ， 考 虑 这 样 
的 一 个 写 操作 ， 它 首先 设置 SRSW 和 寄存器 的 第 一 项 a_tab1e[0]， 然 后 在 写 存 储 单元 a_table 
[1...n 一 1] 之 前 被 延迟 。 随 后 线程 0 的 读 将 会 返回 正确 的 新 值 ， 但 紧 接 着 线程 0 之 后 的 线程 1 将 会 
读 取 并 返回 更 早 的 值 ， 因 为 写 者 还 未 修改 a_table[1..n 一 1]。 对 于 这 个 问题 ， 我 们 可 以 通过 i 


较 早 的 读 线程 将 它们 所 读 到 的 值 告诉 给 较 晚 的 线程 来 帮助 后 者 解决 。 


具体 的 实现 见 图 4-12。n 个 线程 共享 一 个 由 具有 时 间 玲 的 值 所 组 成 的 n*n 数 组 a_table 





public class AtomicMRSWRegister<T> implements Register<T> { 
ThreadLocal<Long> lastStamp; 





1 

2 

3 

4 public AtomicMRSWRegister(T init, int readers) { 
5 lastStamp = new ThreadLocal<Long>() { 
6 }; 
7 

8 






protected Long initialValue() { return 0; 








9 StampedValue<T> value = new StampedValue<T>(init); 
10 for (int i = 0; i < readers; i++) { 

11 for (int j = 0; j < readers; j++) { 
a_table[i] [j] = value; 







} 


} 
public T read() { 






17 int me = ThreadID.get(); 
18 StampedValue<T> value = a_table[me] [me]; 
19 for (int i = 0; i < a table.length; i++) { 





value = StampedValue.max (value, a_table[i][me]); 





i++) { 





for (int i = 0; i < a_table.length; 
23 if (i == me) continue; 
a_table[me] [i] = value; 








return value; 







27 } 

28 public void write(T v) { 

29 long stamp = lastStamp.get{) + 1; 

30 lastStamp.set (stamp); 

31 StampedValue<T> value = new StampedValue<T>(stamp, v); 
32 for (int i = 0; i < a_table.length; i++) { 





a_table{i][i] = value; 








图 4-12 AtomicMRSWRegister2é; 使 用 SRSW 原 子 寄存 器 构造 MRSW 原 子 寄存 器 
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private StampedValue<T>[][] a_table; // each entry is SRSW atomic 





i; 
a_table = (StampedValue<T>[] []) new StampedValue[readers] [readers]; 
















83 
84 
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[0..n 一 1] [0..n 一 1]。 正 如 4.2.4 节 所 讲述 的 ,使 用 具有 时 间 惟 的 值 可 以 使 较 早 的 读 告 诉 较 晚 的 读 ， 
它 所 读 到 的 值 哪个 是 最 新 的 。 对 角 线 上 的 单元 ， 即 a_tab1e[][i] (对 所 有 i) ， 对 应 于 前 面 已 讨 
论 的 那 种 简单 但 无 效 的 寄存 器 构造 。 写 者 将 一 个 新 值 及 其 时 间 惟 一 个 接 一 个 地 写 入 对 角 线 单 
元 ， 同 时 让 时 间 戳 随 着 write() 的 每 次 调用 而 不 断 增加 。 每 个 读者 4 则 像 前 面 的 算法 那样 首先 
读 取 a_table[A][4]。 然 后 ， 使 用 余下 的 SRSW 单 元 a_table[A][B] (A+B) 来 完成 读者 A4 和 B 
之 间 的 通信 。 在 读 取 a_tab1e[4][4] 以 后 ， 读 者 4 通过 扫描 其 对 应 的 列 (对 所 有 的 8 扫描 
a_table[B][A]) 并 查看 是 否 包含 一 个 更 晚 的 值 (时 间 改 更 高 )， 来 检查 是 否 有 其 他 的 读者 已 
读 了 一 个 更 晚 的 值 。 随 后 ， 读 者 A 将 这 个 值 写 入 其 对 应 行 的 单元 中 (a_tab1e[4][B]， 对 所 有 
的 B)， 从 而 让 较 晚 的 读者 能 够 知道 它 所 读 的 最 晚 的 值 是 什么 。 这 样 的 话 ， 在 4 的 读 完 成 后 ,，B 
的 每 个 较 晚 的 读 都 可 以 看 到 A 最 后 读 的 值 (因为 它 读 了 a_tab1e[4][B])。 图 4-13 给 出 了 该 算法 
的 一 个 执行 实例 。 

写 者 写 

和 中 止 





线程 0 读 线程 3 读 


图 4-13 MRSW 原 子 寄存 器 的 执行 。 每 个 读者 具有 一 个 0 一 4 的 索引 号 ， 并 用 索引 号 代表 相 
应 的 线程 。 写 者 把 一 个 具有 时 间 戳 此 1 的 新 值 写 和 单元 a_tab1le[ol[0] 和 a_tab1le[1][1]， 
然后 中 止 。 随 后 ， 线 程 1 对 所 有 的 i 读 它 所 对 应 的 列 元 素 a_table[i][1]， 对 所 有 的 i 写 
它 所 对 应 的 行 元 素 a_tab1e[1][i ， 并 返回 时 间 戳 为 :+1 的 新 值 。 线 程 O 和 3 在 线程 1 
的 读 完成 之 后 进行 读 。 线 程 0 读 a_tab1e[0][1]， 其 时 间 截 为 :+1。 线 程 3 无 法 读 时 间 
截 为 :+1 的 新 值 ， 因 为 写 者 此 时 也 要 写 a_tab1e[3][3]。 但 是 ， 线 程 3 读 了 
a_table[3][1] 并 返回 时 间 玲 为 :t+1 且 由 更 早 的 线程 1 读 过 的 正确 值 


引 理 4.2.6 图 4-12 的 构造 是 一 种 MRSW 原 子 寄 存 器 。 

证 明 首先 ， 读者 不 可 能 返回 将 来 的 值 ， 因 此 条 件 (4.1.1) 成 立 。 其 次 ， 由 构造 可 知 ， 
write ) 调 用 是 按照 严格 递增 的 次 序 写 时 间 改 的 。 该 算法 的 关键 之 处 在 于 ， 在 所 有 行 ( 列 ) 上 
的 最 大 时 间 改 按 行列) 来 看 也 是 严格 递增 的 。 这 样 的 话 ， 如 果 4 所 写 的 值 " 的 时 间 惟 为 1， 则 
8 的 任意 read( ) 调 用 (这 里 4 的 调用 完全 先 于 B 的 调用 ) 所 读 到 的 最 大 时 间 惟 必定 大 于 等 于 1， 
从 而 满足 条 件 (4.1.2)。 最 后 ， 如 前 面 所 述 ， 如 果 A 的 读 调 用 完全 先 于 B 的 读 调用 ， 那 么 4 将 会 
把 一 个 时 间 蕉 为 的 值 写 入 8 的 列 中 ,这样 B 将 选择 一 个 时 间 规 大 于 等 于 :的 值 ， 所 以 条 件 
(4.1.3) 成 立 。 


4.2.6 MRMW 原 子 寄 存 器 


下 面 讲述 如 何 使 用 MRSW 原 子 寄存 器 数组 (每 个 元 素 对 应 一 个 线程 ) 构造 MRMW 原 子 寄 
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如 果 4 要 写 寄 存 器 ， 那 么 它 首先 读 所 有 的 数组 元 素 ， 选 出 一 个 比 它 所 读 到 的 时 间 惟 都 要 大 
的 时 间 惟 ， 再 将 一 个 附 有 时 间 戳 的 值 写 和 人 数组 元 素 4。 如 果 一 个 线程 要 读 寄 存 器 ， 则 首先 读 所 
有 的 数组 元 素 ， 最 后 返回 具有 最 高 时 间 戳 的 那个 元 素 值 。 这 与 2.6 节 中 Bakery 算 法 所 使 用 的 时 
间 惟 算法 完全 相同 ， 也 是 采用 有 利于 索引 号 较 小 的 线程 的 解决 办 法 ， 换 句 话 说， 使 用 时 间 惟 
和 线程 id 对 的 字典 次 序 。 

引 理 4.2.7 图 4-14 中 的 构造 是 一 种 MRMW 原 子 寄 存 器 。 


1 public class AtomicMRMWRegister<T> implements Register<T>{ 
2 private StampedValue<T>[] a_table; // array of atomic MRSW registers 


3 public AtomicMRMWRegister(int capacity, T init) { 

4 a_table = (StampedValue<T>[]) new StampedValue[capacity]; 
5 StampedValue<T> value = new StampedValue<T>(init); 
6 for (int j = 0; j < a_table.length; j++) { 

7 a_table[j] = value; 

8 

9 } 

10 public void write(T value) { 

11 int me = ThreadID.get(); 

12 StampedValue<T> max = StampedValue.MIN VALUE; 

13 for (int i = 0; i < a_table.length; i++) { 

14 max = StampedValue.max(max, a_table[i]); 

15 } 

16 a_table[me] = new StampedValue(max.stamp + 1, value); 
17 

18 public T read() { 

19 StampedValue<T> max = StampedValue.MIN VALUE; 

20 for (int i = 0; i < a_table.length; i++) { 

21 max = StampedValue.max(max, a_table[i]); 

22 } 

23 return max.value; 








24 } 
25 } 
图 4-14 MRMW 原 子 寄存 器 


证 明 R (HAR, Eid) 对 的 字典 次 序 对 所 有 的 write( ) 调 用 进行 排序 ， 使 得 如 果 
14< ts 或 者 ts=ts 且 A< B， 则 A (et [a] BRA, ) 的 write( ) 调 用 先 于 B (HEERA tp) 的 write() 调 
用 。 这 种 字典 次 序 与 “一 ”是 相 一 致 的 ， 对 此 断言 的 证 明 留 作 习 题 。 与 前 面 一 样 ， 我 们 用 写 
次 序 WW，W!，… 来 引用 每 个 write( ) 调 用 。 

显然 ， 当 一 个 read( ) 调 用 完成 之 后 ， 它 无 法 读 a_table[] 中 的 写 入 值 ， 并 且 任 意 一 个 完 会 
在 这 个 读 之 后 的 write( ) 调 用 ， 其 时 间 玲 都 高 于 该 读 调 用 完成 前 的 任何 write( ) 调 用 的 时 间 惟 ， 
即 条 件 (4.1.1) 成 立 。 

考虑 条 件 〈4.1.2) ， 该 条 件 不 允许 跳 过 先前 最 近 的 write()。 假 设 4 的 write() 调 用 先 于 有 
的 write() 调 用 ，B 的 write() 调 用 又 先 于 C 的 write() 调 用 。 若 4=B， 则 较 晚 的 写 重 写 了 
a_table[A] 并 且 read( ) 不 会 返回 较 早 的 写 入 值 。 若 A B， 则 由 于 4 的 时 间 惟 小 于 B 的 时 间 惟 ， 
那么 对 于 任意 观察 到 这 两 个 操作 的 C， 都 返回 8 的 值 (或 具有 更 高 时 间 戳 的 值 ) ， 所 以 构造 满 
足 条 件 (4.1.2)。 

最 后 ， 考 虑 条 件 〈4.1.3) ， 该 条 件 不 允许 读 次 序 违 背 写 次 序 。 假 定 4 的 所 有 read( ) 调 用 都 
完全 先 于 B 的 某 一 个 read( ) 调 用 以 及 C 的 所 有 write( ) 调 用 ， 而 C 的 write() 调 用 在 写 和 次序 上 
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又 先 于 D 的 write( ) 调 用 。 我 们 需要 证 明 ， 车 A 返回 D 的 值 ， 则 8 不 能 返回 C 的 值 。 如 果 tc<io， 
那么 若 A 从 a_tab1e[D] 中 读 到 时 间 惟 ts， 则 B 将 从 a_tab1e[D] 中 读 到 大 于 等 于 tb 的 时 间 惟 ， 且 
返回 值 的 时 间 玲 不 等 于 tc<。 如 果 tc=tp， 即 写 操 作 是 并 发 的 ， 则 按照 写 次 序 有 C<D， 所 以 若 A 从 
a_tab1e[D] 中 读 到 时 间 玲 tp， 则 8 从 a_table[D] 中 也 一 定 读 到 tb。， 且 返回 具有 了 时间 玲 f。( 或 更 
高 ) 的 值 ， 即 使 它 从 a_table[C] 中 读 到 tc 也 是 如 此 。 

上 述 一 系列 构造 说 明 可 以 使 用 SRSW 安 全 布尔 寄存 器 构造 出 MRMW 无 等 待 多 值 原子 寄存 
aro WA, 没有 人 愿意 使 用 安全 寄存 器 来 写 并 发 算法 ,但 是 这 些 构 造 说 明 任 意 使 用 原子 寄存 
器 的 算法 都 可 以 在 一 种 只 支持 安全 寄存 器 的 系统 结构 上 实现 。 稍 后 ， 在 考虑 更 实际 的 系统 结 
构 时 ， 将 重新 回 到 这 种 实现 算法 的 模式 上 ， 使 我 们 可 以 在 一 些 直接 提供 弱 同步 特性 的 系统 结 
构 上 ， 作 出 具有 强 同步 特性 的 假设 。 


4.3 原子 快照 


前 面 讲述 了 如 何 原子 地 读 / 写 单个 寄存 器 的 值 。 如 果 要 原子 地 读 多 寄存 器 的 值 该 怎么 办 
WE? 这 样 的 操作 称 为 原子 快照 。 

原子 快照 构造 了 一 个 原子 寄存 器 数组 的 瞬间 视图 。 如 果 能 构造 一 个 无 等 待 的 快照 ， 则 意 
味 着 一 个 线程 可 以 在 不 延迟 其 他 线程 的 情况 下 对 存储 器 进行 瞬时 的 拍照 。 原 子 快 照 对 于 备份 
和 检查 点 非常 有 用 。 

Snapshot 接 口 (图 4-15) 是 一 个 MRSW 的 原子 寄 
存 器 数组 ， 每 个 寄存 器 对 应 于 一 个 线程 。 其 中 的 
update( ) 方 法 将 值 y 写 入 这 个 数组 中 与 调用 者 线程 相对 
应 的 寄存 器 ， 而 scan( ) 方 法 则 返回 该 数组 的 一 个 原子 
快照 。 

我 们 的 目的 是 构造 一 种 无 等 待 的 实现 ， 使 其 等 价 于 图 4-16 所 示 的 顺序 规范 ( 即 可 线性 化 
的 )。 这 种 顺序 实现 的 关键 性 质 就 是 它 的 scan( ) 调 用 能 够 返回 多 个 值 ， 每 个 值 对 应 于 先前 的 最 
后 一 个 update( )， 也 就 是 说 ， 该 调用 将 返回 处 于 同一 个 系统 状态 下 的 一 组 寄存 器 的 值 。 






















1 public interface Snapshot<T> { 
2 public void update(T v); 

3 public T[] scan(); 

4 } 


图 4-15 ”Snapshot 接口 


1 public class SeqSnapshot<T> implements Snapshot<T> { 
2 TD a_value; 

3 public SeqSnapshot(int capacity, T init) { 

4 a_value = (T[]) new Object[capacity]; 

5 for (int i = 0; i < a value. length; i++) { 
6 

7 

8 















a_value[i] = init; 


} 
9 public synchronized void update(T v) { 
10 a_value[ThreadID.get()] = vi 
} 


12 public synchronized T[] scan() { 

13 TD result = (T[]) new Object[a_value. length]; 
14 for (int i = 0; i < a_value.length; i++) 

15 result[i] = a_value[i]; 

16 return result; 

17 } 

} 





图 4-16 顺序 快照 


4.3.1 无 障碍 快照 


我 们 先 从 这 样 一 个 Simp1eSnapshot 类 入 手 ， 该 类 的 update() 方 法 是 无 等 待 的 ， 而 其 
scan( ) 方 法 则 是 无 障碍 的 。 然 后 再 对 这 个 算法 进行 扩展 ， 使 其 scan( ) 也 是 无 等 待 的 。 

就 像 MRSW 原 子 寄存 器 的 构造 一 样 ， 让 每 个 值 成 为 一 个 StampedValue<T> 对 象 ， 其 中 包 
含 stamp 和 value 两 个 域 。 每 个 update( ) 调 用 将 时 间 惟 加 1。 

收集 是 一 个 非 原 子 的 动作 ， 它 将 寄存 器 的 值 一 个 接 一 个 地 复制 到 数组 中 。 如 果 在 一 次 收 
集 以 后 紧 接着 又 做 了 一 次 收集 ， 且 两 次 收集 读 到 了 相同 的 时 间 惟 集 ， 则 必定 存在 一 个 时 间 间 
隔 ， 且 在 这 个 间隔 中 没有 线程 更 新 了 自己 的 寄存 器 ， 所 以 这 次 收集 所 得 到 的 结果 也 就 是 在 第 
一 次 收集 结束 时 的 那个 瞬间 ， 对 系统 状态 拍摄 的 一 个 快照 。 称 这 一 对 收集 为 干净 的 双重 收集 。 

在 图 4-17 所 示 的 Simp1leSnapshot<T> 类 的 构造 中 ， 每 个 线程 反复 地 调用 col1lect() (第 27 
行 ), 一 旦 发 现 一 个 干净 的 双重 收集 (两 次 收集 的 时 间 惟 集合 相等 )， 该 调用 就 返回 。 这 个 构 
造 总 是 返回 正确 的 值 。update( ) 调 用 是 无 等 待 的 ， 而 scan( ) 调 用 则 不 是 ， 其 原因 在 于 任何 调 
用 都 可 能 被 update( ) 不 断 地 中 断 ， 从 而 有 可 能 永远 执行 而 不 结束 。 但 是 ，scan( ) 调 用 是 无 障 
碍 的 ， 因 为 若 它 自身 的 运行 时 间 过 长 则 会 结束 。 











1 public class SimpleSnapshot<T> implements Snapshot<T> { 
2 private StampedValue<T>[] a_table; // array of atomic MRSW registers 
3 public SimpleSnapshot(int capacity, T init) { 

4 a_table = (StampedValue<T>[]) new StampedValue[capacity]; 
5 for (int i = 0; i < capacity; i++) { 

6 a_table[i] = new StampedValue<T>(init); 

7 } 

8 } 

9 public void update(T value) { 

10 int me = ThreadID.get(); 

11 StampedValue<T> oldValue = a_table[me]; 

12 StampedValue<T> newValue = 

13 new StampedValue<T>((oldValue.stamp)+1, value); 
14 a_table[me] = newValue; 

15 } 

16 private StampedValue<T>[] collect() { 

17 StampedValue<T>[] copy = (StampedValue<T>[]) 

18 new StampedValue[a_table. length]; 

19 for (int j = 0; j < a_table.length; j++) 
20 copy[j] = a_table[j]; 
21 return copy; 
22 
23 public T[] scan() { 
24 StampedValue<T>[] oldCopy, newCopy; 
25 oldCopy = collect(); 
26 collect: while (true) { 
27 newCopy = collect(); 
28 if (! Arrays.equals(oldCopy, newCopy)) { 
29 oldCopy = newCopy; 

30 continue collect; 

31 } 

32 TU result = (T[]) new Object[a_table. length]; 
33 for (int j = 0; j < a_table.length; j++) 

34 result[j] = newCopy[j].value; 
35 return result; 
36 } 
37 } 

38} 





图 4-17 简单 的 快照 对 象 


64 第 一 部 分 原 E 


4.3.2 无 等 待 快照 


要 使 scan() 方 法 是 无 等 待 的 ， 每 个 update( ) 调 用 可 以 在 修改 寄存 器 之 前 先 照 一 个 快照 ， 
以 此 来 帮助 与 它 相 冲突 的 scan( )。 若 一 个 scan( ) 在 做 双重 收集 时 不 断 地 失败 ， 则 可 以 从 与 它 
相 冲 突 的 update( ) 调 用 中 选取 一 个 快照 作为 它 自己 的 快照 。 关 键 在 于 ， 必 须 保证 从 提供 帮助 
的 update( ) 中 获得 的 快照 在 该 scan( ) 调 用 的 执行 过 程 中 是 可 线性 化 的 。 

若 一 个 线程 执行 了 一 次 update( ) 调 用 ， 则 称 该 线程 迁移 了 一 步 。 若 线程 3 的 迁移 使 线程 4 
无 法 得 到 一 个 干净 的 收集 ， 那 么 线程 4 是 否 可 以 将 线程 B 的 最 近 一 次 快照 作为 它 自己 的 快照 
WE? 不 幸 的 是 ， 答 案 是 不 行 。 例 如 ， 在 图 4-18 所 示 的 情形 中 ，B8 的 快照 在 4 开始 它 的 update( ) 
调用 之 前 就 已 取得 了 ， 而 4 看 到 B 正 在 迁移 ， 但 8 的 这 个 快照 并 不 是 在 A 的 扫描 期 间 内 拍摄 的 。 


第 一 次 收集 Scan 第 二 次 收集 


IEPEN eee tarana kanae giia a nn a - 5 
Scan Update 
线程 B -poo | ja- - - - -~ o- - - > 


Scan Update 
eee 


图 4-18 此 图 说 明 为 什么 没 能 完成 干净 的 双重 收集 的 线程 4 不 能 使 用 在 它 的 第 二 次 收集 过 
程 中 执行 了 update( ) 的 线程 8 的 最 近 快 照 。 B 的 快照 在 4 开始 scan( ) 之 前 就 已 取得 了 ， 
即 B 的 快照 与 4 的 扫描 没有 重 登 。 这 将 导致 这 样 的 危险 :线程 C 有 可 能 在 8 的 scan() 
和 A 的 scan( ) 之 间 调 用 了 update( )， 从 而 使 A 所 使 用 的 scan( ) 结 果 是 不 正确 的 


无 等 待 的 构造 主要 是 基于 下 面 这 样 的 观察 结果 : 若 一 个 正在 扫描 的 线程 A 在 它 进 行 重复 收 
集 的 同时 看 到 线程 3 迁移 两 次 ， 则 B 必 定 在 4 的 scan( ) 过 程 中 执行 了 一 次 完整 的 update( ) 调 用 ， 
这 样 4 可 以 正确 地 使 用 B 的 快照 。 

图 4-19、 图 4-20 和 图 4-21 描 述 了 无 等 待 的 快照 算法 。 每 个 update( ) 调 用 都 调用 scan( )， 
且 将 扫描 的 结果 附加 到 值 的 标签 上 。 更 确切 地 说 ， 每 个 写 入 寄存 器 的 值 都 具有 如 图 4-19 所 示 
的 结构 : 一 个 stamp 域 ， 线 程 每 次 更 新 值 都 使 5tamp 域 增加 ， 一 个 value 域 ,包含 着 宕 存 器 的 
当前 值 ， 一 个 snap 域 ,包含 着 线程 的 最 后 一 次 扫描 。 快 照 算法 由 图 4-21 描 述 。 一 个 正在 扫描 








1 public class StampedSnap<T> { 
2 public long stamp; 

3 public T value; 

4 public T[] snap; 

5 public StampedSnap(T value) { 
6 stamp = 0; 

7 value = value; 

8 snap = null; 


9 } 

10 public StampedSnap(long label, T value, T[] snap) { 
11 stamp = label; 

12 value = value; 

13 snap = snap; 

14 } 

15 } 








图 4-19 具有 时 间 惟 的 快照 类 
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的 线程 创建 一 个 布尔 型 数组 moved[] (第 13 行 )， 该 数组 记载 在 扫描 过 程 中 已 经 迁移 的 线程 。 如 
前 所 述 ， 每 个 线程 完成 两 次 收集 (第 14 和 16 行 )， 并 且 检 测 线程 的 标记 是 否 发 生 改变 。 如 果 没 
有 ， 那 么 收集 是 干净 的 ， 扫 描 返 回收 集 的 结果 。 如 果 某 线程 的 标记 发 生 了 改变 (第 18 行 )， 则 
正在 扫描 的 线程 检测 moved[] 数 组 来 查看 这 次 改变 是 否 是 线程 的 第 二 次 迁移 (第 19 行 )。 如果 是 ， 
则 返回 那个 线程 的 扫描 (第 20 行 )， 否 则 更 新 moved[] 并 且 重 新 进入 外 层 循 环 (第 21 行 )。 


public class WFSnapshot<T> implements Snapshot<T> { 
private StampedSnap<T>[] a table; // array of atomic MRSW registers 
public WFSnapshot(int capacity, T init) { 
a_table = (StampedSnap<T>[]) new StampedSnap[capacity]; 
for (int i = 0; i < a_table.length; i++) { 
a_table[i] = new StampedSnap<T>(init); 





private StampedSnap<T>[] collect() { 
StampedSnap<T>[] copy = (StampedSnap<T>[]) 
new StampedSnap[a_table. length]; 
for (int j = 0; j < a_table.length; j++) 
copy[j] = a_table(j]; 
return copy; 











图 4-20 单 写 者 原子 快照 类 和 co1lect() 方 法 








public void update(T value) { 














1 

2 int me = ThreadID.get(); 

3 TD snap = scan(); 

4 StampedSnap<T> oldValue = a_table[me]; 

5 StampedSnap<T> newValue = 

6 new StampedSnap<T>(oldValue.stampt+l, value, snap); 
7 a_table[me] = newValue; 

6 4 

9 

10 public T[] scan() { 

FI StampedSnap<T>[] oldCopy; 

12 StampedSnap<T>[] newCopy; 

13 boolean[] moved = new boolean[a_table. length]; 
14 oldCopy = collect(); 

15 collect: while (true) { 

16 newCopy = collect(); 

17 for (int j = 0; j < a_table.length; j++) { 
18 if (oldCopy[j].stamp != newCopy[j].stamp) { 
19 if (moved[j]) { 

20 return newCopy[j].snap; 
21 } else { 
22 moved[j] = true; 

23 oldCopy = newCopy; 

24 continue collect; 

25 } 

26 } 

27 } 

28 TU result = (T[]) new Object[a_table. length]; 
29 for (int j = 0; j < a_table.length; j++) 

30 result[j] = newCopy[j].value; 

31 return result; 

32 } 

33 } 

34} 








图 4-21 单 写 者 原子 快照 的 update() 和 scan( ) 方 法 
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87| 4.3.3 正确 性 证 明 


21 本 小 节 将 略 加 详细 地 讲述 无 等 待 快照 算法 的 正确 性 证 明 。 

引 理 4.3.1 车 一 个 正在 扫描 的 线程 做 了 一 次 干净 的 双重 收集 ， 那 么 它 的 返回 值 必 是 在 该 
执行 过 程 的 某 个 状态 存在 于 寄存 器 中 的 值 。 

证 明 考虑 在 第 一 次 收集 的 最 后 一 个 读 操作 到 第 二 次 收集 的 第 一 个 读 操作 之 间 的 这 个 时 
间 段 。 如 果 有 任意 一 个 寄存 器 在 这 段 时间 内 被 更 新 ， 则 标签 将 不 匹配 ， 那 么 双重 收集 就 不 是 
干净 的 了 。 

引 理 4.3.2 车 一 个 正在 扫描 的 线程 A 在 两 个 不 同 的 双重 收集 期 间 观察 到 另 一 线程 B 的 标签 
发 生 了 变化 ， 那 么 在 最 后 一 次 收集 中 所 读 到 的 线程 B 的 寄存 器 值 必定 是 被 某 个 update( ) 调 用 
写 入 的 ， 且 该 Update() 调 用 是 在 这 四 次 收集 中 第 一 次 收集 开始 之 后 被 调用 的 。 

证 明 若 在 一 个 scan( ) 期 间 ， 线 程 4 对 线程 有 的 寄存 器 的 两 个 相继 读 操作 返回 了 不 同 的 标 
签 值 ， 那 么 这 两 个 读 操作 之 间 线 程 B 至 少 执行 了 一 次 写 。 由 于 线程 B 在 update( ) 调 用 的 最 后 一 
步 才 对 它 的 寄存 器 进行 写 ， 所 以 B 的 某 个 update( ) 调 用 是 在 4 第 一 次 读 操作 之 后 的 某 个 时 间 结 
束 的 ， 并 且 其 他 线程 的 写 是 在 4 的 最 后 一 对 读 之 间 发 生 的 。 因 为 具有 B 对 它 的 寄存 器 写 ， 所 以 
断言 成 立 。 

引 理 4.3.3 ”一 个 scan() 所 返回 的 值 是 在 该 Scan() 的 调用 和 响应 之 间 的 某 个 状态 存在 于 寄 
存 器 中 的 值 。 

证 明 #scan ) 调 用 做 了 一 次 干净 的 双重 收集 ， 那 么 根据 引 理 4.3.1， 该 断言 成 立 。 若 此 
调用 从 另 一 个 线程 8 的 寄存 器 中 获得 扫描 值 ， 那 么 根据 引 理 4.3.2， 从 B 的 寄存 器 中 得 到 的 扫描 
值 已 被 B 的 一 个 scan( ) 调 用 所 获得 ， 且 该 scan( ) 调 用 介 于 A 对 B 的 寄存 器 的 第 一 次 读 和 第 二 次 
读 之 间 。 如 果 该 scan( ) 调 用 完成 了 一 次 干净 的 收集 ， 则 由 引 理 4.3.1 知 结论 成 立 ， 如 果 在 该 
scan( ) 调 用 的 过 程 中 存在 另 一 个 线程 C 的 scan( ) 调 用 ， 则 对 这 种 情形 进行 归纳 ， 注 意 ， 在 所 
有 线程 运行 完 之 前 最 多 只 能 有 n 一 1 个 这 样 的 典 套 调用 ， 其 中 n 为 最 大 的 线程 数 ( 见 图 4-22) ， 所 
以 最 终 必 有 茶 个 赂 套 的 scan( ) 调 用 完成 了 一 次 干净 的 双重 收集 。 
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图 4-22 在 线程 运行 完 之 前 最 多 有 n 一 1 个 髓 套 的 scan( ) 调 用 ， 其 中 n 为 最 大 的 线程 数 。 线 程 
n 一 1 的 scan( ) 包 含 在 所 有 其 他 的 scan( ) 调 用 内 ， 该 调用 必定 有 一 个 干净 的 双重 收集 


引 理 4.3.4 ”任何 一 个 scan( ) 或 update( ) 在 最 多 执行 O(n”) 个 读 或 写 以 后 将 会 返回 。 

证 明 ”对 一 个 给 定 的 scan()， 最 多 只 可 能 有 n 一 1 个 其 他 的 线程 。 经 过 n+1 次 双重 收集 之 后 ， 
要 么 其 中 的 一 个 是 干净 的 ， 要么 某 个 线程 被 观察 到 迁移 了 两 次 。 所 以 scan( ) 调 用 是 无 等 待 的 ， 
同 理 知 update( ) 调 用 也 是 无 等 待 的 。 

根据 引 理 4.3.3， 由 scan( ) 返 回 的 值 形成 了 一 个 快照 ， 因 为 它们 都 是 在 这 个 调用 执行 期 间 
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的 某 个 状态 存在 于 寄存 器 中 的 值 : 该 调用 可 以 在 那个 时 间 点 上 被 线性 化 。 同 理 ， 可 以 在 寄存 
器 被 写 入 的 那个 时 间 点 上 将 update( ) 调 用 线性 化 。 
定理 4.3.1 图 4-20 和 图 4-21 给 出 了 一 种 无 等 待 的 快照 实现 。 


44 ”本章 注释 


Alonzo Church 在 1934~1935 年 间 引 入 了 4 演算 [29]。 Alan Turing 在 1936~1937 年 发 表 的 经 
典 论文 中 给 出 了 图 灵机 的 定义 [146]。Leslie Lamport 最 先 定义 了 安全 、 规 则 、 原 子 寄存 器 以 及 
寄存 器 层次 的 概念 ， 也 是 最 先 证 明 可 以 基于 安全 位 来 实现 非 平凡 的 共享 存储 器 的 人 [93,94]。 
Gary Peterson 最 先 提出 了 原子 寄存 器 的 构造 问题 [125]。Jaydev Misra 给 出 了 一 种 关于 原子 寄存 
器 的 公理 推导 方法 [116]。 可 线性 化 概念 概括 了 Leslie Lamport 和 Jaydev Misra 的 原子 寄存 器 概 
念 ， 这 一 概念 的 提出 归功 于 Herlihy 和 Wing[69]。Susmita Haldar 和 Krishnamurthy Vidyasankar 
在 规则 寄存 器 的 基础 上 给 出 了 一 个 有 界 的 MRSW 原 子 寄 存 器 构造 [50]。 如 何 通 过 单 读者 原子 
寄存 器 来 构造 多 读者 原子 寄存 器 这 一 问题 是 由 Leslie Lamport[93,94], Paul Vitényi 和 Baruch 
Awerbuch[148] 作 为 公开 问题 而 提出 的 。Paul Vitinyi 和 Baruch Awerbuch 最 先 提 出 了 一 种 
MRMW 原 子 寄存 器 设计 方法 [148]。 而 这 一 问题 的 第 一 个 解决 方案 则 归功 于 Jim Anderson, 
Mohamed Gouda 和 Ambuj Singh [12,13]。 其 他 的 原子 寄存 器 构造 (只 列 出 少数 名 字 ) 分 别 由 
Jim Burns 和 Gary Peterson[24]，Richard Newman-Wolfe[150], Lefteris Kirousis, Paul Spirakis 
和 Philippas Tsigas[83], Amos Israeli 和 Amnon Shaham[78]， 以 及 Ming Li, John Tromp 和 Paul 
Vitényi[104] 所 提出 。 本 章 所 提 到 的 基于 时 间 惟 的 MRMW 原 子 寄存 器 构造 是 由 Danny Dolev 和 
Nir Shavit[34] 提 出 的 。 

收集 操作 是 由 Mike Saks, Nir Shavit 和 Heather Woll[135] 最 早 进行 形式 化 的 。 原 子 快照 的 
第 一 个 构造 方法 则 是 同时 由 Jim Anderson[10] 以 及 Yehuda Afek, Hagit Attiya, Danny Dolev, 
Eli Gafni, Michael Merritt 和 Nir Shavit[2] 各 自 独 立地 发 现 的 。 本 章 所 用 的 算法 为 后 者 所 提出 
的 。 快 照 算 法 由 Elizabeth Borowsky 和 Eli Gafni[22] 以 及 Yehuda Afek、Gideon Stupp 和 Dan 
Touitou[4] 提 出 。 

本 章 所 有 算法 的 时 间 惟 都 是 有 界 的 ， 所 以 构造 本 身 使 用 了 有 界 的 寄存 器 。 有 界 时 间 蕉 系 
HH Amos Israeli 和 Ming Li[77] 引 入 ， 而 有 界 并 发 时 间 惟 系统 的 引入 则 归功 于 Danny Dolev 和 
Nir Shavit[34], 


4.5 习题 


习题 34. 考虑 图 4-6 所 示 的 MRSW 安 全 布尔 构造 。 判 断 下 述 情形 是 否 为 true: 如 果 用 一 个 M- 值 的 
SRSW 安 全 寄存 器 数组 替换 SRSW 安 全 布尔 寄存 器 数组 ， 那 么 该 构造 将 会 产生 一 个 M- 值 的 MRSW 
安全 寄存 器 。 证 明 你 的 结论 。 

习题 35. 考虑 图 4-6 所 示 的 MRSW 安 全 布尔 构造 。 判 断 下 述 情形 是 否 为 rue: 如 果 用 SRSW 规 则 布尔 
寄存 器 数组 替换 SRSW 安 全 布尔 寄存 器 数组 ， 那 么 该 构造 将 产生 一 个 MRSW 规 则 布尔 寄存 器 。 证 
明 你 的 结论 。 

习题 36. 考虑 图 4-12 中 原子 的 MRSW 构 造 。 判 断 下 述 情形 是 否 为 rue: 如 果 用 SRSW 规 则 寄存 器 棱 
换 SRSW 原 子 寄存 器 ， 那 么 该 构造 将 产生 一 个 MRSW 原 子 寄 存 器 。 证 明 你 的 结论 。 
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习题 37. 给 出 一 个 静态 一 致 但 不 规则 的 寄存 器 执行 实例 。 

习题 38. 考虑 图 4-6 所 示 的 MRSW 安 全 布尔 构造 。 判 断 下 述 情形 是 否 为 trwe: 如 果 用 M- 值 SRSW 规 则 
寄存 器 数组 替换 SRSW 安 全 布尔 寄存 器 数组 ， 则 该 构造 将 产生 一 个 M- 值 MRSW 规 则 寄存 器 。 证 
明 你 的 结论 。 

习题 39. 考虑 图 4-7 所 示 的 MRSW 规 则 布尔 构造 。 判 断 下 述 情形 是 否 为 true: 如 果 用 一 个 M- 值 
MRSW 安 全 寄存 器 替换 MRSW 安 全 布尔 寄存 器 ， 则 该 构造 将 产生 一 个 M- 值 MRSW 规 则 寄存 器 。 
证 明 你 的 结论 。 

习题 40. 如 果 用 规则 寄存 器 替换 Peterson 双 线程 互 斥 算法 中 的 共享 原子 寄存 器 ， 该 算法 还 能 正常 工 
作 吗 ? 

习题 41. 考虑 下 面 在 分 布 式 消息 传递 系统 中 的 一 种 Register 实 现 。n 个 处 理 器 Po,…,P,_ 组 成 一 个 环 ， 
已 只 能 向 Ph moa, 发 送 消息 。 消 息 是 以 FIFO 次 序 沿 着 链 路 来 传递 的 。 
每 个 处 理 器 保存 一 个 共享 寄存 器 的 拷贝 。 
。 处 理 器 读 取 本 地 存储 器 中 的 拷贝 来 读 取 寄 存 器 内 容 。 
。 处 理 器 已 通过 向 Ps moan AE “Pi: 向 x 中 写 v”， 开 始 执 行 向 寄存 器 x 中 写 入 v 的 write( ) 调 用 。 
“MRP MBA “P 向 x 中 写 v”(ij)， 那 么 它 就 将 值 y 写 入 x 在 自己 的 本 地 拷贝 中 ， 然 后 将 消 
息 转 发 给 Pi,i mod ne 
。 如 果 P 收 到 一 个 消息 “Pi 向 x 中 写 v”"， 那 么 它 就 将 值 y 写 入 x 在 自己 的 本 地 拷贝 中 ， 然 后 丢弃 此 
消息 。 这 次 write( ) 到 此 结束 。 
简要 给 出 证 明 或 举 出 反例 。 
Awrite( TAIL A Be, 
。 这 个 寄存 器 实现 是 规则 的 吗 ? 
。 该 实现 是 原子 的 吗 ? 
若 有 多 个 处 理 器 同时 调用 write( )， 
。 这 个 寄存 器 实现 是 原子 的 吗 ? 

习题 42. 假设 你 的 竞争 对 手 Acme Atomic Register 公 司 开发 出 了 一 种 用 原子 布尔 (单个 位 ) 寄存 器 
来 构造 针对 单 读者 一 单 写 者 的 一 次 写 原子 寄存 器 的 方法 。 通 过 调查 ， 得 到 了 如 图 4-23 所 示 的 代码 
片段 ,不幸 的 是 其 中 丢失 了 read( ) 方 法 的 部 分 。 为 这 个 类 设计 一 个 能 正常 工作 的 read( ) 方 法 ， 
并 且 证 明 (〈 非 形式 化 地 ) 为 什么 它 能 工作 。( 注 意 ， 该 寄存 器 是 一 次 写 的 ， 这 表示 读 操作 最 多 与 
一 个 写 操作 重 亚 。) 

习题 43. 证 明 图 4-6 所 示 的 基于 SRSW 安 全 布尔 寄存 器 的 MRSW 安 全 布尔 寄存 器 构造 中 ， 如 果 组 件 
寄存 器 为 SRSW 规 则 寄存 器 ， 则 该 构造 是 一 个 正确 的 MRSW 规 则 寄存 器 实现 。 

习题 44. 单调 计数 器 是 数据 结构 c = ci…cw ( 即 c 由 单个 数字 cj 组 成 ， 户 0) ，co<cl 和 cz 和 …， 其 中 c0， 
c ，c“，… 表 示 c 所 假定 的 连续 值 。 

如 果 c 不 是 一 个 由 单个 位 组 成 的 数 ， 那 么 对 c 的 读 / 写 可 以 包括 多 个 独立 的 操作 。 对 c 的 一 次 读 
车 与 一 个 或 多 个 对 c 的 写 并 发 执行 ， 则 有 可 能 得 到 一 个 与 任何 w GS) 都 不 相同 的 值 。 因 此 ， 读 
到 的 值 有 可 能 为 多 种 不 同 的 版 本 轨迹 。 若 一 个 读 得 到 版 本 轨迹 为 ca,…,cm， 那 么 称 它 得 到 了 值 co， 
k=min(i s im), Emax (i in), HO<SK<I, #7k=l, Wc“=c AikBI ME Sc RMA, 
这 种 计数 器 的 正确 性 条 件 可 以 保证 如 果 一 个 读 得 到 值 c%%， 那 么 有 ct 和 c% 和 c'。 假 定 每 个 单独 

的 位 c 是 原子 的 。 





1 class AcmeRegister implements Register{ 
2 // N is the length of the register 

3 // Atomic multi-reader single-writer registers 

4 private BoolRegister[] b = new BoolMRSWRegister[3 * N]; 
5 public void write(int x) { 
6 

7 

8 





bootean[] v = intToBooleanArray (x); 
// copy v[i] to bfi] in ascending order of i 
for (int i = 0; i < N; i++) 











9 bli] .write(v[i]); 

10 // copy vfi] to b[N+i] in ascending order of i 
11 for (int i = 0; i < N; i++) 

12 b[N+i] .write(v[i]); 

13 // copy v[i] to b[2N+i] in ascending order of i 
14 for (int i = 0; i < N; i++) 

15 b[(2«N)+i] .write(v[i]); 

16} 

17 public int read() { 

18 // missing code 

19} 

20 } 





图 4-23 Acme 公 司 的 部 分 寄存 器 实现 代码 


假定 下 面 的 定理 成 立 ， 给 出 一 种 单调 计数 器 实现 ， 

定理 4.5.1 如 果 c = ci…cn 总 是 从 右 至 左 写 入 ， 那 么 一 个 从 左 至 右 的 读 得 到 的 值 序列 为 ci21…， 
Coit em, AKSE Sk S Skan eno 

定理 4.5.2 令 c =c…ci 且 假定 co<e!l<…， 

1. iSe <i, <i, Mec, im<c', 

2.120 DSi, zi, Meee, maci, 

定理 4.5.3 Foseycy, 假设 "<c!l<… 且 每 个 位 上 的 数字 c; 是 原子 的 。 

1. 若 c 总 是 从 右 至 左 写 入 ， 那 么 一 个 从 左 至 右 的 读 得 到 的 值 为 c*!<c!, 

2. 车 c 总 是 从 左 至 右 写 入 ， 那 么 一 个 从 右 至 左 的 读 得 到 的 值 为 ci cl 

注意 : 

如 果 对 c 的 一 个 读 得 到 版 本 (LU>0) 的 轨迹 ， 那 么 : 

。 该 读 操作 的 开始 必 领 先 于 对 ci* 写 操作 的 结束 。 

。 该 读 操 作 的 结束 必 落 后 于 对 c 写 操作 的 开始 。 

此 外 ， 对 于 每 一 个 六 090， 如 果 对 cj 的 读 ( 写 ) 操作 在 对 cj 的 读 (S) 操作 开始 之 前 完成 ， 则 
称 对 c 的 读 ( 写 ) 操作 是 从 左 至 右 的 。 类 似 地 ， 可 以 定义 从 右 至 左 的 读 (5) 操作 。 

最 后 ， 始 终 要 记 住 下 标 表示 c 中 的 各 个 位 ， 而 上 标 表示 c 所 假定 的 连续 的 值 。 

习题 45. 证 明 习 题 44 中 的 定理 4.5.1。 注 意 ， 由 于 < 8;， 只 需 证 明 当 1<j<m 时 ，4,<kw。 
证 明 习 题 44 中 的 定理 4.5.3， 假 定 引 理 成 立 。 
习题 46. 本 章 讲述 了 安全 规则 寄存 器 。 定 义 环绕 寄存 器 为 这 样 的 寄存 器 : 存在 一 个 值 w”， 对 v 加 1 所 

产生 的 结果 为 0， 而 不 是 v+1。 

如 有 果 将 Bakery 算 法 中 的 共享 变量 替换 成 (3) 闪 动 的 ，(b) 安 全 的 ，(c) 环 绕 的 寄存 器 ， 那 么 该 算 
法 是 否 满足 (1) 互 斥 条 件 ，(2) 先 来 先 服务 顺序 ? 

给 出 6 个 答案 (其 中 某 些 答案 可 能 隐 含 其 他 的 答案 ) ， 并 逐个 证 明 。 
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假设 你 在 负责 设计 一 种 新 的 多 处 理 器 ， 应 该 将 哪 种 原子 指令 包含 进来 呢 ?” 在 相关 文献 中 
已 介绍 了 一 系列 令 人 眼花 练 乱 的 可 选 指 令 : 读 / 写 存 储 器 、getAndDecrement()、swap()、 
getAndComplement(), compareAndSet( ) 以 及 许多 其 他 的 指令 。 如 果 提 供 对 所 有 这 些 指 令 的 
支持 将 会 使 设计 变 得 非常 复杂 而 且 效 率 低下 ,但 车 提供 了 错误 的 指令 将 会 使 一 些 重要 的 同步 
问题 很 难 解决 甚至 无 法 解决 。 

我 们 的 目标 就 是 找 出 一 组 基本 的 同步 操作 原 语 ， 用 于 解决 实际 中 可 能 出 现 的 各 种 同步 问 
题 。( 当 然 ， 为 了 方便 起 见 也 可 以 提供 一 些 非 基 本 的 同步 操作 。) 为 了 实现 这 个 目标 ， 需 要 提 
供 一 种 能 够 评测 各 种 同步 原 语 能 力 的 测试 方法 : 这 些 同步 原 语 能 够 解决 什么 样 的 同步 问题 ， 
解决 问题 的 效率 如 何 。 

如 果 对 一 个 并 发 对 象 的 每 一 次 方法 调用 都 能 在 有 限 步 内 完成 ， 则 称 该 并 发 对 象 的 实现 是 
无 等 待 的。 如 果 能 保证 某 个 方法 的 无 限 次 调用 都 能 在 有 限 步 内 完成 ， 则 称 该 方 法 是 无 锁 的。 
在 第 4 章 中 已 介绍 过 无 等 待 ( 按 定义 也 是 无 锁 的 ) 寄存 器 的 实现 。 评 测 同步 指令 能 力 的 一 种 方 
法 就 是 评价 同步 指令 对 于 共享 对 象 (如 队列 、 栈 、 树 等 ) 的 实现 的 支持 程度 如 何 。 正 如 第 4 章 
所 讲述 的 ， 我 们 主要 评测 那些 无 等 待 或 无 锁 的 解决 方法 ， 也 就 是 说 ， 只 评测 那些 能 够 保证 状 
态 的 演进 不 依赖 外 界 支 持 的 解决 方法 。9S 

所 有 的 同步 指令 并 不 是 等 价 的 。 如 果 把 同步 原子 指令 看 作 是 其 对 外 的 方法 就 是 指令 本 身 的 
HR (通常 书 中 称 这 些 对 象 为 同步 原 语 ) ， 则 可 以 证 明 存 在 着 一 种 由 同步 原 语 组 成 的 无 限 层次 的 
层次 结构 ， 任 一 层 的 原 语 都 不 能 用 在 更 高 层 原 语 的 无 等 待 或 无 锁 实 现 中 。 其 证 明 思 路 很 简单 ; 
在 这 种 层次 结构 中 ， 每 个 类 都 有 一 个 相关 的 一 致 数 ， 所 谓 一 致 数 就 是 这 个 类 的 对 象 解决 基本 的 
同步 问题 〈 称 为 一 致 性 ) 时 所 能 针对 的 最 大 线程 数 。 我 们 将 会 看 到 在 一 个 有 n 个 或 更 多 个 并 发 线 
程 的 系统 中 ， 不 可 能 使 用 一 致 数 小 于 n 的 对 象 构造 一 个 一 致 数 为 n 的 对 象 的 无 等 待 或 无 锁 实现 。 


5.1 一 致 数 


一 致 性 是 一 个 看 起 来 无 关 痛 痒 且 有 点 抽象 的 问题 ， 从 算法 设计 到 硬件 系统 结构 的 各 个 方面 
对 该 问题 都 有 大 量 结 论 。 一 致 性 对 象 只 提供 单个 decide( ) 方 法 ， 如 图 5-1 所 示 。 每 个 线程 以 输 
入 v 最 多 调用 decide( ) 方 法 一 次 。 一 致 性 对 象 的 decide( ) 方 法 将 返回 一 个 满足 下 列 条 件 的 值 : 

* 一致 性: 所 有 的 线程 都 决定 同一 个 值 。 

。 有 效 性 : 这 个 共同 的 决定 值 是 某 个 线程 的 输入 。 

换 名 话说， 并 发 一 致 性 对 象 可 以 被 线性 化 为 一 个 串 行 一 致 性 对 象 ， 其 中 值 被 选中 的 线程 
首先 完成 它 的 decide( ) 调 用 。 有 时 ， 我 们 只 关注 所 有 输入 为 1 或 0 的 一 致 性 问题 。 这 种 特殊 的 





日 ” 仅 评测 满足 演进 依赖 条 件 的 解决 方案 是 没有 意义 的 。 因 为 那些 基于 依赖 条 件 (如 无 障碍 或 无 死 锁 ) 的 解决 
方法 的 实际 能 力 被 它们 所 依赖 的 操作 系统 的 能 力 所 屏 项 。 
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问题 称 为 二 进 制 一 致 性 。 为 方便 表述 ， 本 节 只 讨论 二 进 制 一 致 性 ， 但 所 有 的 结论 同样 适用 于 
一 般 的 一 致 性 问题 。 

1 public interface Consensus<T> { 

2 T decide(T value); i 

$- 


图 5-1 一 致 性 对 象 的 接口 


下 面 着 重 考 虑 一 致 性 问题 的 无 等 待 解决 方案 ， 即 一 致 性 对 象 的 无 等 待 并 发 实现 。 读 者 将 
会 看 到 ， 对 于 一 个 给 定 的 一 致 性 对 象 ， 既 然 它 的 decide( ) 方 法 只 被 每 个 线程 执行 一 次 ， 那 么 
根据 定义 ， 一 个 无 锁 的 实现 也 是 无 等 待 的 ， 反 之 亦 然 。 因 此 ， 只 需 考 虑 无 等 待 实现 ， 出 于 历 
史 的 原因 ， 所 有 以 无 等 待 方 式 实现 的 一 致 性 类 被 称 为 一 致 性 协议 。 

本 章 仅 考虑 具有 确定 顺序 说 明 的 对 象 类 〈 即 每 个 串 行 的 方法 调用 都 有 单一 的 返回 结果 )。e 

我 们 要 理解 一 个 特定 对 象 的 类 是 否 能 解决 一 致 性 问题 。 但 如 何 使 这 个 概念 更 加 准确 呢 ? 
首先 ， 如 果 将 这 些 对 象 看 作 是 由 系统 底层 (如 操作 系统 或 者 硬件 ) 提供 的 ， 则 只 用 考虑 类 的 
性 质 而 不 需 关 心 对 象 的 个 数 。( 如 果 系 统 能 够 提供 这 种 类 的 一 个 对 象 , 它 就 能 提供 更 多 的 对 象 。) 
其 次 ， 可 以 合理 地 假设 现代 系统 都 能 提供 大 量 的 读 / 写 存储 器 进行 短 记 。 基 于 上 述 两 个 观点 给 
出 下 面 的 定义 。 

定义 5.1.1 如 果 存 在 一 种 使 用 类 C 的 任何 数量 的 对 象 和 原子 寄存 器 的 一 致 性 协议 ， 则 类 C 
能 够 解决 n 线 程 一 致 性 问题 。 

定义 5.1.2 类 C 的 一 臻 数 是 指 用 这 个 类 来 解决 n 线 程 一 致 性 时 所 能 针对 的 最 大 的 n 值 ， 如 
果 最 大 的 n 值 不 存在 ， 则 称 这 个 类 的 一 致 数 是 无 限 的 。 

推论 5.1.1 假设 类 C 的 一 个 对 象 可 以 通过 类 万 的 一 个 或 多 个 对 象 以 及 一 定数 量 的 原子 寄存 
器 实现 ， 如 果 类 C 可 以 解决 n 线 程 一 致 性 ， 那 么 类 DD 也 可 以 。 


状态 和 价 


最 好 的 人手 点 就 是 考虑 下 面 这 种 最 简单 的 情形 : 双 线程 ( 称 为 4 和 B) 的 二 进 制 一 致 性 
(输入 为 0 或 1) 。 每 个 线程 不 断 地 进行 迁移 直到 它 选 定 一 个 值 。 这 里 的 迁移 是 指 对 一 个 共享 对 
象 的 一 次 方法 调用 。 协 议 状 态 包含 线程 的 状态 和 共享 对 象 的 状态 。 初 始 状态 指 所 有 线程 开始 
迁移 之 前 的 协议 状态 ， 结 束 状态 指 所 有 线程 结束 以 后 的 协议 状态 。 结 束 状态 的 决定 值 是 指 由 
所 有 处 于 结束 状态 的 线程 所 决定 的 值 。 

无 等 待 协议 的 所 有 可 能 状态 组 成 了 一 棵 树 ， 其 中 一 个 结 点 代表 一 种 可 能 的 协议 状态 ， 一 
条 边 则 代表 某 个 线程 的 一 次 可 能 的 迁移 。 图 5-2 描 述 了 双 线程 的 协议 树 ， 其 中 每 个 线程 可 以 迁 
移 两 次 。4 的 迁移 用 黑色 表示 ，B 的 迁移 则 用 灰色 表示 。A4 的 一 条 从 结 点 s 到 s' 的 边 表示 : 如 果 4 
在 协议 状态 s 迁 黎 ， 则 新 的 协议 状态 为 s'。s 称 为 的 后 继 状 态 。 由 于 协议 是 无 等 待 的 ， 所 以 树 
一 定 是 有 限 的 。 叶 子 结 点 代表 最 终 的 协议 状态 ， 并 且 被 标 上 它们 的 决定 值 (0 或 1)。 

如 采 一 个 协议 状态 的 决定 值 是 不 确定 的 ， 则 该 协议 状态 是 二 价 的 (bivalent) : 从 这 个 状 
态 开始 执行 的 线程 可 以 决定 0 或 1。 反 之 ， 如 果 决 定 值 是 确定 的 ， 则 该 协议 状态 是 单价 的 
(univalent): 所 有 从 该 状态 开始 的 执行 都 决定 同一 个 值 。 如 果 一 个 协议 状态 是 单价 的 并 且 决 











日 ”之 所 以 避 开 非 确定 对 象 ， 是 因为 它们 的 结构 要 复杂 得 多 。 参 见 本 章 注释 。 


72 第 一 部 分 原 E 


定 值 都 是 1， 则 它 是 1- 价 (1-valent) 的 ， 同 样 可 以 定义 0- 价 的 协议 状态 。 在 图 5-2 中 ， 二 价 状 
态 是 这 样 的 一 个 结 点 ， 其 子孙 结 点 中 既 包 含 标记 为 0 的 叶子 结 点 也 包含 标记 为 1 的 叶子 结 点 。 
而 单价 状态 的 子孙 结 点 中 只 包含 标记 为 单一 决定 值 的 叶子 结 点 。 


ALE = Np ~ 初始 状态 (二 价 ) 
Bit mip MN omy, 





标 有 决定 值 的 结束 状态 
图 5-2 双 线 程 4 和 8B 的 执行 树 。 深 色 结 点 表示 二 价 状态 ， 浅 色 结 点 表示 单价 状态 


下 面 的 引 理 说 明 存 在 着 一 个 二 价 的 初始 状态 。 该 结论 表明 协议 的 结果 不 能 事先 确定 ， 必 
须 依 赖 于 读 和 写 的 交叉 次 序 。 

引 理 5.1.1 每 个 双 线 程 一 致 性 协议 都 存在 一 个 二 价 的 初始 状态 。 

证 明 考虑 4 的 输入 为 0、B 的 输入 为 1 的 初始 状态 。 如 果 A4 在 B 开 始 之 前 完成 协议 ， 则 A 决 
定 0， 因 为 4 必须 决定 某 个 线程 的 输入 ， 而 0 是 它 所 看 到 的 唯一 输入 (4 不 能 决定 1， 因 为 它 没 
有 办 法 把 这 个 状态 同 B 输 入 0 时 的 状态 区 分 开 来 )。 对 称 地 ， 如 果 B 在 4 开始 之 前 完成 协议 ， 那 
么 B 决 定 1， 因 为 它 必 须 决 定 某 个 线程 的 输入 ， 并 且 1 是 它 所 看 到 的 唯一 的 输入 。 由 此 可 见 ，A 
输入 0 并 且 B 输 入 1 时 的 初始 状态 是 二 价 的 。 

引 理 5.1.2 每 个 nn 线程 一 致 性 协议 都 存在 一 个 二 价 的 初始 状态 。 

证 明 留 作 习题 。 口 

一 个 协议 状态 是 临界 的 ， 如 果 它 满足 : 

。 它 是 二 价 的 。 

。 如 果 任 何 一 个 线程 迁移 ， 该 协议 状态 将 变 为 单价 的 。 

引 理 5.1.3 每 一 个 无 等 待 的 一 致 性 协议 都 有 一 个 临界 状态 。 

WEAR 假设 引 理 不 成 立 。 根 据 引 理 5.1.2, 该 协议 有 一 个 二 价 的 初始 状态 。 从 这 个 初 态 开 
台 运 行 这 个 协议 。 只 要 存在 某 个 线程 不 用 把 协议 状态 变 为 单价 就 能 迁移 ， 则 让 该 线程 迁移 。 
如 果 这 个 协议 的 运行 不 终止 ， 则 它 不 是 无 等 待 的 。 因 此 ， 这 个 协议 最 终 必定 进入 一 个 不 可 能 
进行 上 述 迁 移 的 状态 ， 而 这 个 状态 为 一 个 临界 状态 。 

至 今 为 止 ， 对 于 任何 一 致 性 协议 ， 无 论 它 使 用 哪 种 共享 对 象 类 ， 我 们 所 证 明 的 一 切 结论 
都 适用 。 下 面 来 研究 一 些 特 殊 的 对 象 类 。 


5.2 原子 寄存 器 
首先 考虑 这 样 一 个 问题 能 否 用 原子 寄存 器 解决 一 致 性 问题 ? 令 人 惊讶 的 是 ， 答 案 是 否 
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定 的 。 下 面 将 证 明 不 存在 针对 双 线 程 的 二 进 制 一 致 性 协议 。 我 们 将 下 述 结论 的 证 明 留 作 习题 ， 
如 果 两 个 线程 对 两 个 值 不 能 达成 一 致 ， 那 么 n 个 线程 对 k 个 值 也 不 能 达成 一 致 ， 其 中 n>2，k>2，。 

在 讨论 是 否 存在 解决 菜 特定 问题 的 协议 时 ， 通 常会 构造 这 样 的 场景 ;“ 如 果 存 在 一 个 这 样 
的 协议 ， 则 在 如 下 的 情形 下 ,该 协议 将 具有 这 样 的 行为 ……” 其 中 一 个 常用 的 场景 就 是 让 一 
个 线程 ( 称 为 4) 完全 独自 运行 ， 直 到 它 完成 协议 。 由 于 这 种 特殊 的 场景 经 常会 被 用 到 ， 所 以 
KHEMAH “EARR”, 

定理 5.2.1 原子 寄存 器 的 一 致 数 为 1。 

证 明 ”假设 存在 一 个 针对 线程 4、B 的 二 进 制 一 致 性 协议 ， 我 们 来 分 析 这 个 协议 的 特性 并 
由 此 推出 矛盾 。 

根据 引 理 5.1.3， 可 以 让 这 个 协议 运行 直到 它 到 达 一 个 临界 状态 *。 假 设 4 的 下 一 个 迁移 将 
使 该 协议 到 达 一 个 0- 价 状态 ，B 的 下 一 个 迁移 将 使 该 协议 到 达 一 个 1- 价 状态 。( 若 不 是 这 样 ， 
则 更 换 线程 名 。) 那么 4 和 B 将 会 调用 哪些 方法 
We? 现在 来 考虑 所 有 的 可 能 ， 其 中 的 一 个 线程 
对 一 个 寄存 器 读 ， 或 者 两 个 线程 分 别 对 不 同 的 
寄存 器 写 ， 或 者 两 个 线程 对 同一 寄存 器 写 。 

假设 4 准备 读 一 个 给 定 的 寄存 器 (8 可 能 读 
/ 写 同 一 个 寄存 器 或 者 读 / 写 不 同 的 寄存 器 ) ， 如 
图 5-3 所 示 。 考 虑 两 种 可 能 的 执行 情形 。 在 第 
一 种 情形 中 ，8 先 迁移 ， 使 该 协议 到 达 一 个 1- 
价 状态 *"， 然 后 让 B 独 奏 并 最 终 决定 值 1。 在 第 
二 种 情形 中 ，4 先 迁移 ， 使 该 协议 到 达 一 个 0- 
价 状 态 *"， 然 后 B 从 状态 *"“ 开 始 独奏 并 最 终 决 图 5-3 场景 : 4 首先 读 。 在 第 一 种 执行 情形 
定 0。 问 题 是 状态 s' 和 s" 对 B 来 说 是 不 可 区 分 的 中 ，8 先 迁移 ， 使 该 协议 到 达 一 个 1- 
(4 的 读 只 能 改变 它 自己 的 局 部 线程 状态 ， 该 局 价 状态 s"， 然 后 让 B 独 奏 并 最 终 决 定 1。 

a AGA die 在 第 二 种 执行 情形 中 ，4 先 迁移 ， 使 
部 状态 对 B 来 说 是 不 可 见 的 )， 这 意味 着 B 在 两 ee a, 
种 情形 下 都 必须 决定 同一 个 值 ， 得 到 矛盾。 Re A 

8B 从 状态 "开始 独奏 并 最 终 决定 0 

假设 两 个 线程 准备 写 不 同 的 寄存 器 ， 如 图 
5-4 所 示 。A 准 备 写 ro 而 B 准 备 写 r1。 考 虑 两 种 可 能 的 执行 情形 。 在 第 一 种 情形 中 ，A 先 写 /, 然 后 
8 再 号， 由 于 4 首先 执行 ， 所 以 最 终 的 协议 状态 是 0- 价 的 。 在 第 二 种 情形 中 ，B 先 写 r 然后 4 
再 写 m， 由 于 B 先 执行 ， 所 以 最 终 的 协议 状态 是 1- 价 的 。 

问题 是 上 述 两 种 情形 都 导致 了 不 可 区 分 的 协议 状态 。 无 论 4 或 8 都 无 法 确定 哪 一 个 迁移 先 
进行 。 结 束 状 态 既 是 0- 价 状态 又 是 1- 价 状态 ， 得 到 矛盾 。 

最 后 ， 假 设 两 个 线程 准备 写 同 一 个 寄存 器 r， 如 图 5-5 所 示 。 考 虑 两 种 可 能 的 执行 情形 。 在 
4 先 写 的 情形 下 ， 协 议 状态 是 0- 价 的 ， 然 后 让 独奏 并 决定 0。 在 8 先 写 的 情形 下 ， 协 议 状 态 y" 
是 1- 价 的 ， 然 后 让 8 独奏 并 决定 1。 问 题 是 8 无 法 区 分 s' 和 s”( 因 为 不 管 是 在 s' 还 是 ;”"，B 都 重 写 
了 寄存 器 r 并 控 去 了 任何 4 的 写 痕迹 ) ， 所 以 B 从 任意 一 个 状态 开始 都 必须 决定 同一 个 值 ， 得 到 
矛盾。 Oo 

推论 5.2.1 对 于 任意 一 致 数 大 于 1 的 对 象 ， 不 可 能 用 原子 寄存 器 构造 该 对 象 的 无 等 待 
实现 。 
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图 5-4 场景 : 4 和 B 写 不 同 的 寄存 器 图 5-5 场景 : A 和 B 写 同一 个 寄存 器 


上 述 推论 也 许 是 计算 机 科学 领域 里 最 引 人 注 目的 不 可 能 性 结论 之 一 。 它 说 明 ， 如 果 我 们 
要 在 现代 多 处 理 器 上 实现 无 锁 的 并 发 数据 结构 ， 硬 件 必须 提供 原子 的 同步 操作 而 不 是 加 载 / 存 
储 ( 读 / 写 ) 操作 。 


5.3 一 致 性 协议 

现在 考虑 我 们 所 关注 的 一 些 对 象 类 ， 研究 每 种 类 能 在 多 大 程度 上 解决 一 致 性 问题 。 这 些 
协议 具有 一 种 通用 范式 ， 如 图 5-6 所 示 。 该 对 象 具 有 一 个 原子 寄存 器 数组 ， 每 个 decide( ) 方 法 
在 数组 中 指定 自己 的 输入 值 ， 然 后 继续 执行 一 系列 操作 步 ， 从 指定 值 中 决定 一 个 值 。 我 们 将 
使 用 各 种 同步 对 象 来 构造 不 同 的 decide( ) 方 法 实现 。 


public abstract class ConsensusProtocol<T> implements Consensus<T> { 








pent 








2 protected T[] proposed = (T{]) new Object[N]; 

3 // announce my input value to the other threads 

4 void propose(T value) { 

5 proposed[ThreadI0.get()] = value; 

6 

7 // figure out which thread was first 

8 abstract public T decide(T value); 

9 } 

图 5-6 通用 一 致 性 协议 

5.4 FIFO 队 列 


第 3 章 给 出 了 只 使 用 原子 寄存 器 且 仅 针对 单 人 队 者 和 单 出 队 者 的 FIFO 队 列 的 无 等 待 实现 。 
能 否 构造 一 种 支持 多 个 人 队 者 和 出 队 者 的 FIFO 队 列 的 无 等 待 实现 呢 ? 首先 来 研究 一 个 比较 特 
殊 的 问题 : 能 够 用 原子 寄存 器 构造 出 针对 双 出 队 者 的 FIFO 队 列 的 无 等 待 实现 吗 ? 

定理 5.4.1 双 出 队 者 FIFO 队 列 类 的 一 致 数 至 少 为 2。 

证 明 图 5-7 描 述 了 采用 单个 FIFO 队 列 实现 的 双 线 程 一 致 性 协议 。 队 列 中 存放 着 整数 ， 通 
过 将 值 WIN 和 值 L0SE 先 后 入 队 来 对 队列 进行 初始 化 。 和 其 他 所 有 的 一 致 性 协议 一 样 ，decide( ) 
首先 调用 propose(v)， 将 值 v 存 放 在 指定 输入 值 的 共享 数组 proposed[] 中 ， 然 后 让 队列 中 的 下 
一 项 出 队 。 如 果 这 一 项 的 值 是 WIN， 则 首先 选 定 调用 线程 ， 并 且 决 定 它 自己 的 值 。 如 果 这 一 项 
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的 值 是 L0SE ， 则 另 一 个 线程 首先 被 选 定 ， 这 样 调 用 线程 按照 数组 proposed[] 中 的 声明 返回 另 
一 个 线程 的 输入 。 





1 public class QueueConsensus<T> extends ConsensusProtocol<T> { 
2 private static final int WIN = 0; // first thread 

3 private static final int LOSE = 1; // second thread 
4 Queue queue; 

5 // initialize queue with two items 

6 public QueueConsensus() { 

7 queue = new Queue(); 

8 queue.eng(WIN); 

9 queue.enq(LOSE) ; 

10 } 

11 // figure out which thread was first 

12 public T decide(T Value) { 

13 propose(value); 





14 int status = queue.deq(); 
15 int i = ThreadID.get(); 
16 if (status == WIN) 

17 return proposed[i]; 

18 else 

19 return proposed[1l-i]; 











图 5-7 用 一 个 FIFO 队 列 实现 的 双 线 程 一 致 性 


由 于 不 存在 环 路 ， 所 以 该 协议 是 无 等 待 的 。 如 果 每 一 个 线程 都 返回 它 自己 的 输入 ， 那 么 
它们 必须 都 WIN 出 队 ， 这 将 违背 FIFO 队 列 的 定义 。 如 果 每 一 个 线程 都 返回 另 一 个 线程 的 输 
入 ， 那 么 它们 必须 都 让 LO0SE 出 队 ， 同 样 也 违背 了 队列 的 定义 。 

从 这 个 分 析 可 以 看 出 ， 有 效 性 条 件 遵 循 : 让 WIN 出 队 的 线程 ， 在 任何 值 出 队 之 前 已 把 它 自 
己 的 输入 存放 在 数组 proposed[] 中 。 

对 于 任何 其 他 的 以 不 同调 用 次 序 返回 不 同 结果 的 对 象 ， 像 栈 、 优 先 级 队列 、 表 、 集 合 等 ， 
只 需 将 这 段 程序 稍 作 修改 就 可 以 产生 相应 的 协议 。 

推论 5.4.1 用 一 组 原子 寄存 器 不 可 能 构造 队列 、 栈 、 优 先 级 队列 、 集 合 或 链表 的 无 等 待 
实现 。 

虽然 FIFO 队 列 能 够 解决 双 线 程 一 致 性 问题 ， 但 是 不 
能 解决 3 线程 一 致 性 问题 。 

定理 5.4.2 FIFO 队 列 的 一 致 数 为 2。 

WEAR 用 反 证 法 。 假 设 存在 一 个 针对 线程 4、B 和 C 的 
一 致 性 协议 。 根 据 引 理 5.1.3, 该 协议 有 一 个 临界 状态 s。 
不 失 一 般 性 ， 假 设 4 的 下 一 个 迁移 将 使 该 协议 到 达 一 个 0- 
价 状态 ， 而 B 的 下 一 个 迁移 将 使 该 协议 到 达 一 个 1- 价 状态 。 
和 前 面 一 样 ， 剩 下 的 工作 就 是 情形 分 析 。 

首先 ， 因 为 4 和 B 的 未 决 迁 移 不 能 交换 ， 这 意味 着 它 
们 都 将 调用 同一 对 象 的 方法 。 其 次 ， 由 于 A 和 8 不 能 读 / 写 
共享 寄存 器 ， 所 以 它们 将 调用 单个 队列 对 象 的 方法 。 

首先 ,假设 A4、B 都 调用 deq( )， 如 图 $-8 所 示 。 如 果 4 图 5-8 场景 ; 4 和 B 都 调用 deq( ) 

















76 第 一 部 分 原 Ff 


先 出 队 然 后 3 再 出 队 ， 则 协议 状态 为 s"， 如 果 出 队 次 序 相反 ， 则 协议 状态 为 ;'"。 由 于 s 是 0- 价 的 ， 
那么 ， 如 果 让 C 从 s' 开 始 不 被 中 断 地 一 直 运 行 ， 则 它 将 会 决定 0。 由 于 s" 是 1- 价 的 ， 如 果 C 从 s” 
开始 不 被 中 断 地 一 直 运 行 ， 则 决定 1。 但 对 C 来 说 s' 和 s" 是 不 可 区 分 的 (从 队列 中 移出 了 相同 的 
两 个 项 )， 所 以 在 两 种 状态 C 都 必须 决定 相同 的 值 ， 得 到 矛盾 。 

其 次 ,假设 A 调 用 enq(a)， 而 8 调用 deq( )。 如 果 队 列 非 空 ， 那 么 直接 产生 了 矛盾， 其 原因 在 
于 这 两 个 方法 可 以 交换 (每 种 方法 在 队列 的 不 同 端 进行 操作 ): C 无 法 观察 到 它们 发 生 的 次 序 。 
假设 队列 为 空 ， 若 B 先 对 空 队列 执行 出 队 操作 然后 4 执行 人 队 操 作 ， 则 到 达 1- 价 状态 ， 若 4 单独 
执行 了 入 队 操作 ， 则 到 达 0- 价 状态 。 然 而 ， 从 这 个 0- 价 状态 开始 到 达 1- 价 状态 对 C 是 不 可 区 分 
的 。 注 意 ， 我 们 并 不 关心 一 个 deq( ) 对 一 个 空 队 列 到 底 做 了 什么 (中断 或 等 待 )， 因 为 这 并 不 
影响 该 状态 对 C 的 可 见 性 。 

最 后 ， 假 设 A 调用 enq(a)， 而 B 调 用 enq(b)， 如 图 5-9 所 示 。 设 s' 为 下 面 操 作 结 束 时 的 状态 ， 

1. 4 和 B 分 别 使 得 a 和 b 入 队 。 

2. 运行 4 直至 它 使 4 出 队 。( 由 于 方法 deq( ) 是 观察 队列 状态 的 唯一 方法 ， 所 以 4 在 还 未 观 
察 到 a 或 5 之 前 不 能 做 出 决定 。) 

3. 在 A 进一步 执行 之 前 ， 运 行 B 直 至 它 使 bp 出 队 。 

队列 头 ”2 







Aenqa 


运行 4 直至 deq a 运行 4 直至 deq b 


运行 8 直至 deq b % 运行 B 直 至 deq a 


让 C 独 奏 | 


图 5-9 场景 A 调用 enq(a)，B 调 用 enq(b)。 注 意 ， 在 A 和 B 分 别 将 它们 各 自 的 项 入 队 以 后 ， 
一 个 新 项 又 被 A 入 队 (8 也 可 以 在 该 项 出 队 前 入 队 新 的 项 ) 但 该 项 还 未 出 队 ， 然 而 ， 
在 两 种 执行 情形 中 该 项 是 相同 的 


设 s" 为 下 面 操作 交替 执行 后 的 状态 : 

1. B 和 A 分 别 使 得 b 和 a 入 队 。 

2. 运行 4 直至 它 使 b 出 队 。 

3. 在 4 进一步 执行 之 前 ， 运 行 B 直 至 它 使 4 出 队 。 

TA, s 为 0- 价 的 而 *' 为 1- 价 的 。 在 这 两 种 情形 下 ，4 的 执行 都 是 相同 的 ，4 一 直 执 行 直到 
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它 使 4 或 5 出 队 为 止 。 由 于 A 在 修改 其 他 对 象 之 前 被 中 止 ， 那 么 在 两 种 情况 下 B 的 执行 也 是 相同 
的 ， 8 一 直 运 行 直到 它 使 4 或 5 出 队 为 止 。 按 照 现在 已 熟悉 的 论证 方法 ， 因 为 s'" 和 s" 对 C 是 不 可 


























区 分 的 ， 所 以 产生 了 矛盾。 109 

对 上 述 论 证 过 程 稍 加 修改 ， 就 可 以 证 明 许多 类 似 的 数据 类 型 ， 如 集合 、 栈 、 双 端 队列 以 
及 优先 级 队列 ， 它 们 的 一 致 数 也 正好 为 2。 

5.5 多 重 赋值 对 象 

Elm, n)-WALE (A (或 称 为 多 重 赋值 ) 中 (其 中 由 > 六 >1)， 给 定 一 个 具有 7 个 域 的 对 象 
《有 时 为 一 个 "元 数组 ) 。 方 法 assign( ) 以 mm 个 值 w (E0, =, m—-1) 和 m 个 索引 值 i (jeE0，…， 
m-1, i€0, =, n-1) 为 输入 参数 ， 将 值 w 原子 地 赋予 数组 元 素 i;。 方 法 read( ) 以 索引 i 为 参 
数 ， 返 回 数组 中 的 第 i 个 元 素 。 该 问题 是 原子 快照 对 象 (第 4 章 ) 的 对 偶 问 题 ， 在 原子 快照 对 
象 中 ， 是 对 单个 域 赋值 而 对 多 个 域 进行 原子 地 读 。 由 于 快照 可 以 采用 读 / 写 寄 存 器 实现 ， 所 以 
定理 5.2.1 隐 含 地 说 明快 照 对 象 的 一 致 数 为 1。 

图 5-10 描 述 了 针对 (2,3)- 赋 值 对 象 的 一 种 基于 锁 的 实现 。 其 中 ， 线 程 能 够 对 三 个 数组 元 素 
中 的 任意 两 个 进行 原子 地 赋值 。 

1 public class Assign23 { 
2 int[] r = new int[3]; 
3 public Assign23(int init) { 
4 for (int i = 0; i < r.length; i++) 
5 r{i] = init; 
6 } 
7 public synchronized void assign(T v0, T vl, int i0, int i1) { 
8 r[i0] = v0; 
9 r[il] = vl; 
10 
ll public synchronized int read(int i) { 
12 return r[il; 
13 } | 
14 } 
图 5-10 (2,3)- 赋 值 对 象 的 基于 锁 的 实现 

定理 5.5.1 对 任意 的 n>>m>1， 不 存在 通过 原子 寄存 器 构造 的 (m, n)- 赋 值 对 象 的 无 等 待 
实现 。 

证 明 ”对 于 一 个 给 定 的 (2，3)- 赋 值 对 象 以 及 两 个 线程 ， 只 需 证 明 能 够 解决 双 线 程 一 致 性 
即 可 。( 习 题 75 要 求证 明 这 个 结论 。) 与 通常 一 样 ，decide( ) 方 法 必须 决定 哪 一 个 线程 首先 运 
行 。 所 有 的 数组 元 素 被 初始 化 为 nu11。 图 5-11 描 述 了 该 协议 。 线 程 4 (原子 地 ) 写 域 0 和 域 1， 
同时 线程 8 (原子 地 ) 写 域 和 域 2。 然 后 它们 尝试 着 决定 谁 先 运行 。 从 线程 4 的 角度 来 看 ， 存 
在 着 3 种 情形 (如 图 5-12 所 示 ): 110 


* 如 果 先 执行 4 的 赋值 ， 而 8 的 赋值 还 没有 发 生 ， 则 域 O 和 域 1 为 4 的 值 ， 域 2 的 值 为 nul1。 这 
样 4 决定 它 自己 的 输入 。 

"如 采 先 执行 4 的 赋值 ， 随 后 执行 3 的 赋值 ， 则 域 0 为 4 的 值 ， 域 1 和 域 2 为 B 的 值 。 这 样 4 决 
定 它 自 己 的 输入 。 

* 如 果 先 执行 8 的 赋值 ， 随 后 执行 4 的 赋值 ， 则 域 O 和 域 1 为 4 的 值 ， 域 2 为 B 的 值 。 这 样 4 决 
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定 B 的 输入 。 
同样 的 分 析 也 适用 于 B。 





public class MultiConsensus<T> extends ConsensusProtocol<T> { 


private final int NULL = -1; 


Assign23 assign23 = new Assign23(NULL); 


public T decide(T value) { 
propose(value) ; 
int i = ThreadID.get(); 
int j = l-i; 
// double assignment 


assign23.assign(i, i, i, i+1); 


int other = assign23.read((it+2) % 3); 
if (other == NULL || other == assign23.read(1)) 
return proposed[i]; // I win 


else 


return proposed[j]; // I lose 





图 5-11 使 用 (2, 3)- 多 重 赋值 的 双 线 程 一 致 性 


定理 5.5.2 ”对 于 1 >1， 原子 的 (nO) 
寄存 器 赋值 的 一 致 数 至 少 为 m。 

证 明 ”我们 来 设计 一 种 针对 n 线 程 0，…,，n-1 
的 一 致 性 协议 。 该 协议 使 用 一 个 (m9) we 
值 对 象 。 为 方便 起 见 ， 以 下 面 的 方式 命名 对 象 的 
域 。 有 n 个 域 ",，…，r,_!， 其 中 线程 1 写 寄存 器 
x， 有 n(n 一 1)/2 个 域 r,， 其 中 i>>j， 线 程 :和 线程 
都 在 写 域 ,。 所 有 的 域 都 被 初始 化 为 nul1。 每 个 线 
程 ;把 它 的 输入 值 原子 地 赋 给 n 个 域 ， 它 的 单 写 者 
域 /i 及 其 4-1 个 多 写 者 寄存 器 r,。 该 协议 决定 要 被 
赋予 的 第 一 个 值 。 

在 给 自己 的 域 赋值 之 后 ， 线 程 按 如 下 方法 决 
定 任意 两 个 线程 ;、/) 的 相对 赋值 顺序 ， 

“ 读 /。 如 果 该 值 为 mul1， 则 不 发 生 任何 赋值 。 

e TN, ikrr 如 果 rx, 的 值 为 nul1， 则 线程 j 

在 ;之 前 赋值 。 按 照 同样 的 方法 处 理 r。 

. 如 果 r 和 r 都 不 为 mi， 则 重读 m,。 如 果 其 值 

等 于 r 中 的 值 ， 那 么 在 ;之 前 赋值 ， 否 则 ， 

按照 相反 次 序 赋值 。 

不 断 地 重复 这 个 过 程 ， 则 一 个 线程 可 以 决定 


哪个 值 是 由 最 早 的 赋值 所 写 的 。 图 5-13 给 出 了 两 个 决定 次 序 的 例子 。 oO 


ajbj|b 
A 决定 a 











图 5-13 使 用 (4,10)- 赋 值 解 决 4 线程 一 致 性 时 可 
能 出 现 的 两 种 情况 。 在 第 一 种 情形 中 ， 
只 有 线程 了 B 和 D。B 首 先 准备 赋值 并 且 
赢得 了 一 致 性 。 在 第 二 种 情形 中 ， 有 
三 个 线程 4、B 和 D， 和 前 面 一 样 ， 通 
过 i 上 8 首先 赋值 、D 最 后 赋值 ， 使 8 赢 
得 一 致 性 。 线 程 之 间 的 次 序 可 以 通过 
查看 任意 两 个 线程 之 间 的 两 两 次 序 来 
确定 。 因 为 赋值 是 原子 的 ， 所 以 这 些 
单独 的 次 序 总 是 一 致 的 ， 并 且 定 义 了 
所 有 调用 之 间 的 全 序 关系 








注意 ， 对 于 任意 疡 > > 1 且 其 对 偶 结构 和 原子 快照 的 一 致 数 最 大 为 1 的 线程 ， 多 重 赋值 能 
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够 解决 它们 的 一 致 性 问题 。 虽 然 这 两 个 问题 看 起 来 相似 ， 但 我 们 已 证 明了 对 多 存储 单元 的 原 
子 写 要 比 对 它们 的 原子 读 需 要 更 多 的 计算 能 


5.6 读 -- 改 一 写 操作 


由 多 处 理 器 硬件 所 提供 的 大 多 数 经典 同 步 操作 可 以 表示 为 读 - 改 - 写 (RMW) 操作 ， 按 
照 它们 的 对 象 术 语 ， 称 为 读 一 改 一 写 寄 存 器 。 考 虑 一 个 将 整数 值 封装 起 来 的 RMW 寄 存 器 ， 令 
为 从 整数 到 整数 的 映射 函数 集 。9 

对 于 某 个 fE 关 ， 如 果 一 个 方法 能 够 用 广 (w) 原 子 地 替换 寄存 器 的 当前 值 v>， 并 返回 寄存 器 的 
先前 值 z， 则 称 该 方法 是 一 个 对 于 函数 集 的 RMW 操 作 (有 时 和 是 一 个 单 例 集 ) 。 我 们 遵循 
Java 的 规定 ， 把 使 用 函数 mumble 的 RMW 方 法 称 为 getAndMumble( ) 。 

例如 ，java.uti1.concurrent 包 提供 了 具有 各 种 RMW 方 法 的 AtomicInteger 类 。 

egetAndSet(v) 方法 用 "原子 地 替换 寄存 器 的 当前 值 并 返回 先前 值 。 该 方法 (或 称 为 

swap()) 是 一 个 对 于 类 型 为 上 CoO=v 的 常量 函数 集 的 RMW 方 法 。 

。getAndIncrement ( ) 方 法 将 寄存 器 的 当前 值 原子 地 加 1 并 返回 先前 值 。 该 方法 (或 称 为 

取 值 一 自 增 ) 是 一 个 对 于 函数 1(x)=x+1 的 RMW 方 法 。 

。getAndAdd(k) 方法 将 寄存 器 的 当前 值 原子 地 加 x 并 返回 先前 值 。 该 方法 (或 称 为 取 值 一 

增加 ) 是 一 个 对 于 函数 集 f (xX)=x+k 的 RMW 方 法 。 

e compareAndSet( ) 方 法 使 用 两 个 参数 值 ， 期 望 值 e 和 更 新 值 4。 如 果 寄 存 器 值 等 于 e， 则 用 

4 原子 地 替换 它 ， 否 则 不 改变 。 同 时 ， 该 方法 返回 一 个 布尔 值 以 说 明 寄 存 器 值 是 否 被 改 

变 。 非 形式 化 地 来 说 ， 如 果 xze 则 (x)=x， 否 则 f(x)=u。 严 格 地 讲 ，compareAndSet() 

方法 并 不 是 一 个 对 于 f., 的 RMW 方 法 ， 因 为 RMW 方 法 应 返回 寄存 器 的 先前 值 而 不 是 一 个 

布尔 值 ， 但 这 种 区 别 只 是 技术 上 的 问题 。 

。get() 方 法 返回 寄存 器 的 值 。 该 方法 是 一 个 对 于 恒 等 函 数 f(v)=v 的 RMW 方 法 。 

由 于 RMW 方 法 有 可 能 成 为 潜在 的 硬件 原 语 ， 所 以 人 们 十 分 关注 这 些 被 刻 在 硅 片 上 而 并 不 
是 刻 在 石头 上 的 RMW 方 法 的 研究 工作 。 本 书 采 用 Java 同 步 术语 定义 RMW 寄 存 器 及 其 方法 ， 
然而 ， 在 实际 编程 中 ， 它 们 几乎 完全 对 应 于 真正 的 (或 被 建议 的 ) 硬件 同步 原 语 。 

如 果 在 一 个 RWM 方 法 的 函数 集中 至 少 包含 一 个 非 恒 等 函数 ， 那 么 该 方法 是 非 平凡 的 
(nontrivial) , 

定理 5.6.1 非 平凡 RMW 寄 存 器 的 一 致 数 至 少 为 2。 

证 明 ”图 5-14 给 出 了 一 种 双 线 程 一 致 性 协议 。 由 于 在 中 必定 存在 f 为 非 恒 等 函数 ， 那 么 
必 存 在 着 值 v 使 得 f(v)#v。 在 decide( ) 方 法 中 ，propose(v) 先 将 线程 的 输入 v 写 入 数组 
proposed[] 中 。 然 后 ， 每 个 线程 对 一 个 共享 寄存 器 调用 该 RMW 方 法 。 如 果 线 程 的 调用 返回 v， 
那么 它 被 线性 化 为 第 一 个 ， 并 且 决 定 自己 的 值 。 否 则 ， 它 被 线性 化 为 第 二 个 ， 并 且 决 定 另 一 
个 线程 的 值 。 口 

推论 5.6.1 对 于 两 个 或 两 个 以 上 的 线程 ， 使 用 原子 寄存 器 不 可 能 为 它们 构造 出 任意 非 平 
凡 RMW 方 法 的 无 等 待 实现 。 








O “为 简单 起 见 ， 仅 考虑 具有 整数 值 的 寄存 器 ， 但 它们 同样 也 可 以 表示 对 其 他 对 象 的 引用 。 
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1 class RMWConsensus extends ConsensusProtocol { 

2 // initialize to v such that f(v) != v 

3 private RMWRegister r = new RMWRegister(v); 

4 public Object decide(Object value) { 

5 propose(value) ; 

6 int i = ThreadID.get(); // my index 

7 int j = l-i; // other's index 

8 if (r.rmw() == v) // I'm first, I win 

9 return proposed[i]; 
10 else // I'm second, I lose 
11 return proposed[j]; 

12 

is ] 

— 





图 5-14 使 用 RMW 操 作 的 双 线 程 一 致 性 协议 


5.7 Common2 RMW 操 作 


下 面 分 析 Common2 RMW 寄 存 器 ， 这 种 寄存 器 是 20 世 纪 末 大 多 数 处 理 器 所 支持 的 常用 同 
步 原 语 。 虽 然 Common2 寄 存 器 和 非 平凡 的 RMW 寄 存 器 一 样 ， 具 有 比 原子 寄存 器 更 为 强大 的 
能 力 ， 但 仍 能 证 明 它 的 一 致 数 恰 好 为 2， 这 意味 着 Common2 寄 存 器 的 同步 能 力也 是 有 限 的 。 
然而 幸运 的 是 ， 在 现代 处 理 器 系统 结构 中 已 基本 上 放弃 了 这 种 同步 原 语 。 

定义 5.7.1 对 于 任意 的 值 y 以 及 济 数 集 于 中 的 函数 和 所 ， 如 果 它 们 满足 下 面条 件 之 一 : 

offoff TER: fi(f(v))=f (fi(v))， 或 者 

。 一 个 函数 重 写 另 一 个 函数 : HFOAOAG ACK). 

则 函数 集 不 属于 Common2 。 

定义 5.7.2 如果 一 个 RMW 寄 存 器 的 函数 集 下 属于 Common2， 则 该 寄存 器 也 属于 Common2 

文献 中 的 很 多 RMW 寄 存 器 只 提供 一 个 非 平 几 函数 。 例 如 ，getAndSet( ) 使 用 常量 函数 来 
重 写 任意 的 先前 值 。getAndIncrement( ) 和 getAndAdd( ) 方 法 使 用 了 可 交换 函数 。 

首先 非 形式 化 地 说 明 为 什么 Common2 RMW 寄 存 器 不 能 解决 3 线程 一 致 性 问题 。 第 一 个 线 
Fe (获胜 者 ) 总 能 识别 出 它 是 第 一 个 ， 第 二 个 和 第 三 个 线程 (失败 者 ) 也 能 够 识别 出 它们 是 
失败 者 。 然 而 ， 由 于 用 来 定义 Common2 操 作 后 的 协议 状态 的 函数 是 可 交换 或 可 重 写 的 ， 因 此 ， 
失败 者 线程 无 法 识别 出 其 他 线程 中 的 哪 一 个 首先 执行 (成 为 获胜 者 )， 又 因为 协议 是 无 等 待 的 ， 
所 以 它 不 可 能 一 直 等 待 直到 找 出 哪个 是 获胜 者 为 止 。 下 面 对 该 结论 进行 更 为 准确 的 论证 。 

定理 5.7.1 任意 Common2 RMW 寄 存 器 的 一 致 数 (恰好 ) 为 2。 

证 明 ”定理 5.6.1 已 证 明 所 有 RMW 寄 存 器 的 一 致 数 至 少 为 2。 现 只 需 证 明 任意 Common2 寄 
存 器 都 不 能 解决 3 线程 一 致 性 问题 。 

采用 反 证 法 ,假定 存在 一 个 只 使 用 Common2 寄 存 器 和 读 / 写 寄 存 器 的 3 线程 协议 。 不 妨 假 
设 线程 A4、B 和 C 通 过 Common2 寄 存 器 达到 了 一 臻 性。 根据 引 理 5.1.3， 任 何 这 样 的 协议 都 有 一 
个 临界 状态 *， 在 此 状态 下 ， 协 议 是 二 价 的 ， 同 时 ， 任 意 线程 的 任意 方法 调用 都 会 使 该 协议 进 
入 单价 状态 。 

现在 进行 情形 分 析 ， 检 查 各 种 可 能 的 方法 调用 。 通 过 定理 5.2.1 的 证 明 过 程 中 所 采用 的 推 
理 分 析 可 以 看 出 ， 未 决 的 方法 不 可 能 是 读 或 写 ， 同 样 线程 也 不 可 能 调用 不 同 对 象 的 方法 。 由 
此 推出 线程 准备 调用 单个 寄存 器 r 的 RMW 方 法 。 
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假设 A 准备 调用 一 个 针对 函数 所 的 方法 ,使 协议 进入 一 个 0- 价 状态 ，B 准 备 调用 一 个 针对 记 
的 方法 ,使 协议 进入 一 个 1- 价 状态 。 则 存在 两 种 可 能 的 情形 : 

1. 如 图 5$-15 所 示 ， 一 个 函数 重 写 了 另 一 个 国 数 : fs(f(v))=fs(v)。 令 s' 是 4 先 调用 fh， 随 后 B 
再 调用 户 所 导致 的 状态 。 由 于 * 定 0- 价 的 ， 如 果 让 C 单 独 运行 直至 完成 协议 ， 那 么 它 将 决定 0。 
令 8' 是 8 单独 调用 户 所 导致 的 状态 。 由 于 *' 是 1- 价 的 ， 如 果 让 C 单 独 运 行 直至 完成 协议 ， 则 它 将 
决定 1。 问 题 是 这 两 个 可 能 的 寄存 器 状态 fs(f(v)) 和 fs(v) 是 相同 的 ， 所 以 s' 和 s "只 能 在 4 和 B 的 内 
部 状态 中 不 同 。 如 果 现 在 让 线程 C 开 始 执行 ， 由 于 C 不 需要 与 4、B 通 信 即 可 完成 协议 ， 那 么 这 
两 个 状态 对 C 来 说 是 一 样 的 ， 因 此 ， 从 这 两 个 状态 不 可 能 决定 出 不 同 的 值 。 

2. AAA eH: FABON aO). Fs EAA Sa BEBARA 广 所 导致 的 状态 。 
由 于 s' 是 0- 价 的 ， 如 果 让 C 单 独 运 行 直至 完成 协 
议 ， 那 么 它 将 决定 0。 令 s" 是 让 4 和 B 以 相反 的 次 
序 进行 调用 所 导致 的 状态 。 由 于 s" 是 1- 价 的 ， 如 
果 让 C 单 独 运 行 直 至 完成 协议 ， 则 它 将 决定 1。 
问题 是 这 两 个 可 能 的 寄存 器 状态 f(fa(v)) 和 
fa(fa(Y)) 是 相同 的 ， 所 以 s' 和 s "只 能 在 4 和 B 的 内 
部 状态 中 不 同 。 如 果 现 在 让 C 开 始 执行 ， 由 于 C 
不 需要 与 4、B 通 信和 了 即 可 完成 协议 ， 那 么 这 两 个 
状态 对 C 来 说 是 一 样 的 ， 因 此 ， 从 这 两 个 状态 中 
不 可 能 决定 出 不 同 的 值 。 

















5.8 compareAndSet( ) 操 作 


图 5-15 场景 : 两 个 函数 重 写 


现在 考虑 前 面 提 及 的 compareAndSet( ) 操 
作 ， 它 是 多 种 现代 系统 结构 (例如 ， 在 Intel Pentium™ 处 理 器 上 的 CMPXCHG) 所 支持 的 一 种 
同步 操作 。 在 文献 中 往往 将 这 种 操作 称 为 比较 一 交换 (compare-and-swap)。 前 面 已 指出 ， 
Ce 如 果 寄 存 器 的 当前 值 等 于 期 望 值 ， 则 用 更 新 
值 替 换 ， 否 则 ， 值 不 变 。 该 方法 调用 返回 一 个 布尔 值 以 说 明 值 是 否 被 改变 。 

定理 5.8.1 a T es i 其 一 致 数 是 无 限 的 。 

证 明 图 5-16 描 述 了 一 种 采用 AtomicInteger 类 中 的 compareAndSet() 方 法 ， 针 对 nn 线程 
0，…，n 一 1 的 一 致 性 协议 。 这 些 线程 共享 一 个 AtomicInteger 对 象 ， 该 对 象 的 初始 值 为 常量 
FIRST， 该 初始 值 与 任何 线程 的 索引 都 不 相同 。 每 个 线程 以 FIRST 作 为 期 望 值 、 以 它 自己 的 索 
引 作 为 新 值 来 调用 compareAndSet()。 如 果 某 个 线程 4 的 调用 返回 true， 则 这 次 调用 是 顺序 次 
序 中 的 第 一 个 ， 于 是 A 决定 它 自己 的 值 。 否 则 ，A 读 取 AtomicInteger 的 当前 值 ， 从 数组 
proposed[] 中 获得 该 值 所 对 应 线程 的 输入 。 

注意 ， 为 了 方便 起 见 ， 在 定理 5.8.1 的 compareAndSet() 寄 存 器 中 提供 一 个 get() 方 法 。 下 
面 的 推论 留 作 习题 。 

推论 5.8.1 仅 支 持 compareAndSet() 方 法 的 寄存 器 具有 无 限 的 一 致 数 。 

在 第 6 章 将 会 看 到 ， 支 持 类 似 于 compareAndSet( )9 这 种 原 语 操 作 的 机 器 是 顺序 计算 图 灵 

日 ”有 一 些 系统 结构 提供 了 get()/compareAndSet( ) 操 作对 ， 也 称 为 链接 加 载 /条 件 存 储 。 通 常 ， 链 接 加 载 在 加 


载 时 对 存储 单元 进行 标记 ， 若 其 他 线程 修改 了 该 单元 ， 则 由 于 该 单元 已 被 加 载 ， 条 件 存储 将 失败 。 具 体 参 
见 第 18 章 及 附录 B。 
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机 的 异步 计算 等 价 机 器 : 对 于 任意 的 并 发 对 象 ， 如 果 它 是 可 实现 的 ， 则 必定 能 在 这 种 机 器 上 
以 无 等 待 的 方式 实现 。 用 Maurice Sendak 的 话 来 讲 ，compareAndSet() 是 “万 物 之 首 ”。 





1 class CASConsensus extends ConsensusProtocol { 

2 private final int FIRST = -1; 

3 private AtomicInteger r = new AtomicInteger(FIRST); 
4 public Object decide(Object value) { 

5 propose(value) ; 

6 int i = ThreadID.get(); 

7 if (r.compareAndSet (FIRST, i)) // I won 

8 return proposed[i]; 


9 else // I lost 
10 return proposed[r.get()]; 

11 } 

12 } 











图 5-16 采用 compareAndSwap() 的 一 致 性 协议 


5.9 本 章 注释 


Michael Fischer, Nancy Lynch 和 Michael Paterson[40] 最 先 证 明了 在 单个 线程 可 以 中 止 的 
消息 传递 系统 中 ， 不 可 能 实现 一 致 性 。 在 他 们 的 这 篇 开创 性 论文 中 ， 引 入 了 分 布 式 计算 领域 
中 广泛 采用 的 不 可 能 性 证 明 的 “二 价 ”形式 。M. Loui 和 H. Abu-Amara[108] 以 及 Herlihy[62] 首 
先 将 这 个 结论 推广 到 共享 存储 器 。 

Clyde Kruskal, Larry Rudolph 和 Marc Snir[133] 将 读 一 改 一 写 操 作 作 为 NYU Ultracomputer 
项 目的 组 成 部 分 。 

Maurice Herlihy[62] 提 出 了 一 致 数 的 概念 ， 将 其 作为 一 种 衡量 计算 能 力 的 指标 ， 并 第 一 个 
证 明了 本 章 和 第 6 章 中 的 大 部 分 不 可 能 性 结论 和 通用 性 结论 。 

包含 常用 同步 操作 原 语 的 Common2 类 ， 是 由 Yehuda Afek, Eytan Weiberger 和 Hanan 
Weisman[5] 定 义 的 。 习 题 中 用 到 的 “粘性 位 ”(sticky-bit) 对 象 则 归功 于 Serge Plotkin[126]。 

具有 任意 一 致 数 n 的 n- 界 compareAndSet( ) 对 象 (习题 5.10) 则 是 基于 Prasad Jayanti 和 Sam 
Toueg[81] 所 提出 的 一 种 构造 。 在 这 种 层次 结构 中 ， 如 果 能 用 X 的 任意 个 数 的 实例 和 任意 数量 
的 读 / 写 存储 器 构造 一 个 无 等 待 的 一 致 性 协议 ， 则 称 X 解 决 了 一 致 性 问题 。Prasad Jayanti[79] 指 
出 ， 在 限定 只 能 使 用 固定 个 数 的 X 的 实例 或 固定 数量 的 存储 器 的 情形 下 ， 可 以 定义 资源 -有 界 
的 层次 结构 。 由 于 任何 其 他 的 层次 结构 都 是 无 界 层次 结构 的 一 种 粗 粒度 形式 ， 所 以 无 界 层 次 
结构 似乎 应 是 最 自然 的 一 种 。 

Jayanti 提 出 了 层次 结构 的 健壮 性 问题 ， 也 就 是 说 ， 是 否 可 以 通过 将 层次 m 上 的 对 象 X 与 另 
一 个 相同 层次 或 更 低层 次 上 的 对 象 Y 相 结合 ， 将 X “提升” 到 更 高 的 一 致 性 层次 上 呢 ?Wai- 
Kau Lo 和 Vassos Hadzilacos[106] 以 及 Eric Schenk[144] 证 明了 一 致 性 层次 结构 不 是 健壮 的 ， 只 
有 一 部 分 对 象 能 够 提升 。 非 形式 化 地 看 ， 其 构造 按照 下 面 的 过 程 来 实现 : 令 X 是 一 个 具有 如 下 
奇特 性 质 的 对 象 ，X 能 解决 a 线程 一 致 性 问题 但 却 “ 拒 绝 ” 泄 圳 结果， 除非 调用 者 可 以 证 明 他 
自己 能 够 解决 一 种 中 间 级 别 的 任务 ， 访 任务 比 n 线 程 一 致 性 弱 但 又 比 可 通过 原子 读 / 写 寄 存 器 
来 解决 的 任务 强 。 如 果 7Y 是 一 个 可 用 来 解决 该 中 间 级 别 任务 的 对 象 ， 那 么 Y 可 以 通过 设法 获得 XX 
的 信任 ， 让 X 让 露 " 线 程 一 致 性 的 结果 ， 从 而 提升 X。 在 这 些 证 明 中 所 使 用 的 对 象 都 是 不 确定 的 。 
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Maurice Sendak} 5| H3€ 8 Where the Wild Things Are[140], 


5.10 习题 


习题 47. 证 明 引 理 5.1.2。 

习题 48. 证 明 每 个 n 线 程 一 致 性 协议 都 有 一 个 二 价 的 初始 状态 。 

习题 49. 证 明 在 一 个 临界 状态 中 ， 一 个 后 继 状态 必 为 0- 价 的 ， 另 一 个 后 继 状 态 为 1- 价 的 。 

习题 50. 证 明 : 若 使 用 原子 寄存 器 的 二 进 制 一 致 性 对 于 双 线 程 是 不 可 能 的 ， 则 对 于 n 线 程 也 是 不 可 
能 的 ， 其 中 n>2。( 提 示 ; 用 归 约 法 证 明 ， 如 果 已 经 存在 一 个 针对 n 线 程 的 二 进 制 一 致 性 协议 ， 则 
可 以 将 该 协议 转化 为 一 个 双 线 程 协 议 。) 

习题 51. 证 明 : 若 采 用 原子 寄存 器 的 二 进 制 一 致 性 对 于 nn 线程 是 不 可 能 的 , 则 对 于 k 值 也 是 不 可 能 的 
其 中 k>2。 

习题 52. 证 明 使 用 足够 多 的 n 线 程 二 进 制 一 致 性 对 象 和 原子 寄存 器 能 够 实现 对 于 n 值 的 n 线 程 一 致 性 
协议 。 

习题 53. Stack 类 提供 了 两 个 方法 : push(x) 把 一 个 值 压 入 栈 顶 ，pop( ) 返 回 并 删除 最 近 入 栈 的 值 。 
证 明 Stack 类 的 一 致 数 恰好 为 2。 

习题 54. 假设 为 FIFO Queue 类 增加 一 个 peek() 方 法 ,该 方法 返回 但 不 删除 队 首 元 素 。 证 明 这 种 扩展 
后 的 队列 具有 无 限 一 致 数 。 

习题 55. 考虑 三 个 线程 4、B 和 C， 它 们 分 别 有 一 个 MRSW 寄 存 器 X、Xs 和 Xc， 每 个 线程 可 以 写 自己 

的 寄存 器 ， 而 其 他 两 个 线程 则 可 以 读 该 寄存 器 。 

此 外 ， 每 一 对 线程 共享 一 个 RMWRegister 寄 存 器 ， 该 寄存 器 只 提供 一 个 compareAndSet ( ) 方 

法 : A、B 共 享 Ras，B、C 共 享 Rsc，A、C 共 享 Ric。 只 有 共享 某 个 寄存 器 的 线程 可 以 调用 该 寄存 

器 的 compareAndSet( ) 方 法 或 读 取 它 的 值 。 

或 者 给 出 一 个 一 致 性 协议 并 解释 该 协议 为 什么 能 够 工作 ， 或 者 给 出 一 个 不 可 能 性 证 明 。 
习题 56. 考虑 习题 5.55 中 所 描述 的 情形 ， 不 同 的 是 ，A、B 和 C 能 够 立刻 对 两 个 寄存 器 两 次 调用 
compareAndSet(), 
习题 57. 在 5.7 节 所 描述 的 一 致 性 协议 中 ， 如 果 在 出 队 后 通知 了 该 线程 的 值 将 会 发 生 什么 情况 ? 
习题 58. StickyBit 类 的 对 象 有 三 种 可 能 的 状态 上 、0、1， 初 始 状态 为 L。4 调 用 write(v)， 其 中 为 

0 或 1， 产 生 如 下 影响 : 

。 如 果 对 象 状 态 是 上 ， 则 变 为 v。 

。 如 果 对 象 状态 是 0 或 1， 则 保持 不 变 。 

对 read( ) 的 一 次 调用 返回 该 对 象 的 当前 状态 。 

1. 证 明 这 种 对 象 能 够 解决 对 任意 数量 线程 的 无 等 待 三 进 制 一 致 性 〈 即 所 有 输入 为 0 或 1) 问题 。 

2. 证 明 当 有 mm 种 可 能 的 输入 时 ,一 个 由 logzm 个 StickyBit 对 象 〈 使 用 原子 寄存 器 ) 所 组 成 的 数组 ， 
能 够 解决 对 于 任意 数量 线程 的 无 等 竺 二进制 一 致 性 问题 。( 提 示 : 需要 给 每 个 线程 指定 一 个 单 
写 者 一 多 读者 原子 寄存 器 。) 

习题 59. 和 Consensus 类 一 样 ，SetAgree 类 提供 了 propose() 方 法 和 decide( ) 方 法 ， 其 中 每 个 

decide( ) 调 用 返回 一 个 值 ， 该 值 是 某 个 线程 propose( ) 调 用 的 参数 。 但 不 同 的 是 ，decide( ) 调 

用 所 返回 的 值 并 不 要 求 是 一 致 的 。 相 反 ， 这 些 调用 可 能 返回 不 超过 K 个 不 同 的 值 。( 当 K 为 1 时 ， 

SetAgree 和 Consensus 相 同 。) 当心 1 时 ，SetAgree 的 一 致 数 是 多 少 ? 

习题 60. 对 于 一 个 给 定 的 se， 近似 一 致 的 双 线程 类 按 如 下 方式 定义 : 给 定 两 个 线程 A 和 B， 每 个 线程 
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可 以 分 别 调用 decide(x。) 和 decide(x,)， 其 中 xs 和 x 都 是 实数 。 这 两 个 方法 分 别 返 回 y, 和 y,， 并 使 
ya 和 yy 在 闭 区 间 [min(xoxp)，max(xsxp)] 内 ， 同 时 对 a>0， 有 ly 一 ysl< 2。 注 意 这 个 对 象 是 不 确定 的 。 

这 种 近似 一 致 对 象 的 一 致 数 是 多 少 ? 

习题 61. 考虑 一 个 线程 之 间 通 过 消息 传递 进行 通信 的 分 布 式 系统 。 一 个 4 类 型 的 广播 能 够 保证 ， 
1. 每 个 无 故障 线程 最 终 能 得 到 每 条 消息 。 
2. 如 果 P 先 广播 MM 随后 广播 M,， 则 每 个 线程 在 M, 之 前 接收 到 Mi。 
3. 但 是 不 同 线程 广播 的 消息 可 以 被 不 同 线程 以 不 同 的 次 序 接收 。 
一 个 B 类 型 的 广播 能 保证 : 
1. 每 个 无 故障 线程 最 终 能 得 到 每 条 信息 。 
2. 如 果 P 广 播 M1,，Q 广 播 M,， 则 每 个 线程 以 相同 的 次 序 收 到 M1 和 MM。 
对 每 种 类 型 的 广播 : 
。 如 果 可 能 ， 则 给 出 一 致 性 协议 。 
"否则 ， 给 出 不 可 能 性 证 明 。 

习题 62. 考虑 下 面 的 双 线 程 QuasiConsensus ( 准 一 致 性 ) 问题 : 

分 别 对 线程 4、B 给 定 一 个 二 进 制 输入 。 如 果 两 个 线程 的 输入 都 是 vx， 则 它们 决定 v。 如 果 两 
个 线程 的 输入 是 混合 的 ， 则 要 么 它们 达成 一 致 ， 要 么 B 决 定 0 且 4 决 定 1 (但 是 反之 不 是 这 样 )。 

现 有 三 个 可 能 的 习题 (只 有 一 个 是 正确 的 ) 。(1) 给 出 一 个 双 线 程 一 致 性 协议 ， 使 用 
Quasiconsensus 对 象 证 明 它 的 一 致 性 数 为 2。(2) 给 出 一 个 采用 临界 状态 的 证 明 ， 说 明 该 对 象 的 
一 致 数 为 1。(3) 给 出 一 个 QuasiConsensus 对 象 的 读 / 写 实现 ， 从 而 证 明 它 的 一 致 数 为 1。 

习题 63. 解释 如 果 共 享 对 象 是 一 个 Consensus (一 致 ) 对 象 ， 为 什么 不 能 用 临界 状态 证 明 一 致 性 的 
不 可 能 性 。 

习题 64. 本 章 已 证 明了 对 于 双 线 程 一 致 性 协议 存在 着 一 个 2- 价 初始 状态 。 试 证 明 对 于 xn 线程 一 致 性 
协议 存在 着 一 个 2- 价 初始 状态 。 

习题 65. 组 一 致 对 象 提供 与 Consensus 对 象 相同 的 propose( ) 和 decide( ) 方 法 。 组 一 致 对 象 可 以 解 
决 不 超过 两 个 不 同 待 选 值 的 一 致 性 问题 。( 如 果 有 两 个 以 上 的 待 选 值 ， 则 结果 是 无 定义 的 。) 

说 明 如 何 使 用 组 一 致 对 象 来 解决 不 超过 xn 个 不 同 输入 值 的 "线程 一 致 性 问题 。 

习题 66. 一 个 三 元 寄存 器 具有 值 上 L、0、1， 同 时 提供 通常 意义 的 compareAndSet() 方 法 和 get( ) 方 法 。 
每 个 这 种 寄存 器 的 初始 值 都 为 上 L。 如 果 线 程 的 输入 为 二 进 制 数 (0 或 1)， 请 给 出 一 种 只 通过 一 个 
三 元 寄存 器 来 解决 2 线程 一 致 性 的 协议 。 

能 否 使 用 多 个 这 样 的 寄存 器 (也 许 和 原子 读 / 写 寄存 器 一 起 ) 来 解决 线程 一 致 性 问题 ? 其 中 ， 
线程 的 输入 范围 为 0 一 2 一 1，K>1。( 可 以 假设 一 个 输入 适合 一 个 原子 寄存 器 。) BR: 记 住 一 至 
性 协议 必须 是 无 等 待 的 。 

* 设计 一 种 最 多 使 用 O(n) 个 三 元 寄存 器 的 解决 方案 。 
。 设 计 一 种 使 用 O() 个 三 元 寄存 器 的 解决 方案 。 
可 以 随意 使 用 原子 寄存 器 (它们 很 便宜 )。 

习题 67. 前 面 已 定义 了 无 锁 特性 。 证 明 不 存在 针对 两 个 或 更 多 个 线程 且 使 用 读 / 写 寄 存 器 的 一 致 性 
协议 的 无 锁 实现 。 

习题 68. 图 5-17 描 述 了 一 种 通过 read、write、getAndSet() ( 即 swap) 和 getAndIncrement() 方 法 
实现 的 FIFO 队 列 。 只 要 不 对 空 队列 调用 deq()， 就 可 以 假设 这 种 队列 是 可 线性 化 且 无 等 待 的 。 考 
虑 下 列 陈 述 。 
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1 class Queue { 

2 AtomicInteger head = new AtomicInteger(0); 
3 AtomicReference items[] = 

4 new AtomicReference[Integer.MAX_VALUE] ; 
5 void enq(Object x) { 

6 int slot = head.getAndIncrement(); 

7 items[slot] = x; 

8 


} 
9 Object deq() { 








10 while (true) { 

11 int limit = head.get(); 

12 for (int i = 0; i < limit; i++) { 

13 Object y = items[i].getAndSet(); // swap 
14 if (y 1= null) 

15 return y; 

16 } 





17 } 
18 } 
19 } 
图 5-17 队列 实现 


e getAndSet( ) 方 法 和 getAndIncrement( ) 方 法 的 一 致 数 都 是 2。 
* 可 以 通过 获取 队列 的 快照 (使 用 前 面 所 学 的 方法 ) 及 返回 队 首 元 素 的 值 来 增加 一 个 peek( ) 方 法 。 
。 通 过 使 用 习题 54 的 协议 ， 可 以 用 结果 队列 来 解决 任意 的 n- 一 致 性 问题 。 
我 们 已 通过 只 使 用 一 致 数 为 2 的 对 象 构 造 了 一 种 n 线 程 一 致 性 协议 。 指 出 在 这 个 推理 过 程 中 

的 错误 步骤 ， 并 解释 为 什么 出 错 。 

习题 69. 通过 compareAndSet( ) 的 定义 可 以 看 出 ， 从 严格 的 意义 上 来 讲 ，compareAndSet( ) 并 不 是 
对 于 ,的 RMW 方 法 ， 因 为 RMW 方 法 应 该 返回 寄存 器 的 先前 值 ， 而 不 是 布尔 值 。 请 用 一 个 支持 
compareAndSet() 和 get() 方 法 的 对 象 来 构造 一 个 新 的 对 象 ， 该 对 象 具 有 可 线性 化 的 
NewCompareAndSet( ) 方 法 ， 能 返回 寄存 器 的 当前 值 而 不 是 布尔 值 。 

习题 70. n--RcompareAndSet( ) 对 象 定义 如 下 。 该 对 象 提供 一 个 compareAndSet() 方 法 ， 它 以 期 望 值 
e 和 更 新 值 u 作 为 参数 。 在 compareAndSet( ) 的 前 n 次 调用 中 ， 其 行为 与 传统 的 compareAndSet( ) 寄 
存 器 一 样 : 如 果 寄 存 器 的 值 等 于 e， 则 用 uu 原子 地 替换 寄存 器 的 值 ， 否 则 值 不 变 ， 同 时 返回 一 个 
指明 是 否 发 生 改 变 的 布尔 值 。 但 在 compareAndSet( ) 被 调用 了 m 次 之 后 ， 该 对 象 进 入 一 种 错误 状 
态 ， 所 有 后 继 的 方法 调用 都 返回 上 。 
证 明 n- 界 compareAndSet( ) 对 象 的 一 臻 数 恰好 为 n。 

习题 71. 用 三 个 compareAndSet( ) 对 象 ( 即 支持 compareAndSet( ) 和 get() 操 作 的 对 象 ) 构造 一 种 双 
线程 三 单元 的 Assign23 多 赋值 对 象 的 无 等 待 实现 。 

习题 72. 在 定理 5.5.1 的 证 明 中 ， 我 们 曾 断 言 ， 若 给 定 两 个 线程 和 一 个 (2,3)- 赋 值 对 象 ， 则 足以 证 明 
可 以 解决 2- 一 致 性 问题 。 证 明 这 个 断言 。 

习题 73. 证 明 推论 5.8.1。 

习题 74. 可 以 把 调度 器 看 作 一 个 对 手 , 他 能 够 利用 协议 及 输入 值 的 有 关 信 息 来 阻止 我 们 达到 一 致 性 。 
战胜 对 手 的 一 种 方法 就 是 采用 随机 化 。 假 设 有 两 个 线程 欲 达 到 一 致 性 ， 每 个 线程 都 能 不 偏 不 倚 
地 投 据 硬 币 ， 这 样 对 手 无 法 控制 随后 的 硬币 投掷 。 

假设 调度 器 对 手 能 够 观测 到 每 次 硬币 投掷 的 结果 和 每 次 读 / 写 的 值 。 它 能 在 一 次 硬币 投掷 或 

者 一 次 读 / 写 共享 寄存 器 之 前 或 之 后 停止 一 个 线程 。 





N 


86 第 一 部 分 原 H 


随机 一 致 性 协议 以 概率 1 终止 来 防备 调度 器 对 手 。 图 5-18 给 出 了 一 个 看 似 合理 的 随机 一 致 性 
协议 。 举 例 说 明 该 协议 不 正确 。 


Object prefer[2] = {null, null}; 





1 

2 

3 Object decide(Object input) { 
4 int i = Thread.getID(); 

5 int j = l-i; 

6 prefer[i] = input; 

7 while (true) { 

8 if (prefer[j] == null) { 








9 return prefer[i]; 

10 } else if (prefer[i] == prefer[j]) { 
il return prefer[i]; 

12 } else { 

13 if (flipQ) { 

14 prefer[i] = prefer(j]; 

15 } 

16 } 

17 } 

18 } 


图 5-18 这 是 个 随机 的 一 致 性 协议 吗 


习题 75. 可 以 通过 实现 一 个 无 死 锁 或 无 饥饿 的 互 斥 锁 的 方法 来 实现 一 个 使 用 读 / 写 寄存 器 的 一 致 性 
对 象 。 然 而 ， 这 种 实现 方法 只 提供 了 相关 演进 ， 操 作 系 统 必须 确保 线程 没有 在 临界 区 内 阻塞 ， 
从 而 保证 计算 作为 一 个 整体 进行 。 

。 对 于 无 障碍 情形 ， 非 阻塞 相关 演进 条 件 是 否 也 成 立 ? 给 出 一 个 仅 使 用 原子 寄存 器 的 一 致 性 对 象 
的 无 障碍 实现 。 

“在 一 致 性 问题 的 无 障碍 解决 方案 中 ， 操 作 系统 扮演 什么 角色 ? 解释 基于 临界 状态 的 一 致 性 的 不 
可 能 性 证 明 方 法 在 哪里 会 失效 ， 假 设 让 Oracle 数 据 库 管 理 系统 不 断 地 暂停 线程 ， 以 使 其 他 线程 
能 够 前 进 。 

(提示 : 考虑 如 何 限制 允许 的 执行 集 。) 
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第 5 章 给 出 了 证 明 “ 不 存在 通过 7 构造 X 的 无 等 待 实现 ” 这 种 命题 的 简单 方法 。 下 面 考 虑 
具有 确定 顺序 规范 的 对 象 类 。9 我 们 可 以 构造 这 样 一 种 对 象 的 层次 结构 ， 在 这 种 结构 中 ， 无 
法 使 用 某 一 层 的 对 象 来 实现 更 高 层 的 对 象 ( 见 图 6-1)。 这 是 因为 ， 每 个 对 象 都 具有 一 个 与 之 
相关 的 一 致 数 ， 它 是 该 对 象 能 够 解决 一 致 性 问题 所 针对 的 最 大 线程 个 数 。 而 在 一 个 有 7 个 或 更 
多 个 并 发 线程 的 系统 中 ， 不 可 能 使 用 一 致 数 小 于 "的 对 象 来 构造 一 种 一 致 数 为 "的 对 象 的 无 等 
待 实现 。 该 结论 也 适用 于 无 锁 实现 。 今 后 除非 我 们 明确 说 明 ， 否 则 一 个 适用 于 无 等 待 实现 的 
结论 也 同样 适用 于 无 锁 的 实现 。 














一 致 数 对 象 
1 原子 寄存 器 
getAndSet( ),getAndAdd(), Queue, Stack 
m (mm(m+1)/2)- 寄 存 器 赋值 
oo 存储 器 -存储 器 迁移 ,compareAndSet( ), 链 接 加 载 /条 件 存储 全 














图 6-1 同步 操作 的 通用 层次 结构 及 其 并 发 可 计算 性 


第 5 章 的 不 可 能 性 结论 并 不 是 指 无 等 待 同步 是 不 可 能 或 不 可 行 的 。 本 章 将 证 明 存 在 着 通用 
的 对 象 类 : 若 给 定 足 够 多 的 对 象 ， 则 对 于 任何 并 发 对 象 ， 可 以 构造 它 的 无 等 待 可 线性 化 实现 。 

在 一 个 ?线程 系统 中 ， 当 且 仅 当 一 个 类 的 一 致 数 大 于 或 等 于 n 时 ， 这 个 类 是 通用 的 。 在 图 
6-1 中 ， 第 2 层 中 的 每 个 类 对 于 一 个 ?线程 系统 来 说 是 通用 的 。 当 且 仅 当 一 种 机 器 的 系统 结构 或 
编程 语言 能 够 以 通用 类 的 对 象 作为 操作 原 语 时 ， 该 机 器 的 系统 结构 或 编程 语言 具有 支持 任意 
无 等 待 同步 的 计算 能 力 。 例 如 ， 提 供 compareAndSet( ) 操 作 的 现代 多 处 理 器 机 器 对 任意 数量 
的 线程 都 是 通用 的 : 它们 能 以 无 等 待 方式 实现 任何 并 发 对 象 。 

本 章 主要 讲述 如 何 通 过 一 致 性 对 象 来 构建 并 发 对 象 的 通用 构造 ， 并 不 介绍 构造 无 等 待 对 
象 的 实用 技术 。 和 经 典 的 计算 理论 一 样 ， 理 解 通用 构造 及 其 本 质 含义 能 够 避免 去 解决 那些 无 
法 解决 的 问题 。 一 旦 理解 了 一 致 性 为 什么 足以 实现 任何 类 型 的 对 象 ， 就 能 通过 工程 实践 使 这 
种 构造 变 得 更 加 有 效 。 
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6.2 通用 性 


如 果 通 过 类 C 的 一 些 对 象 和 读 / 写 寄存 器 能 够 构造 任何 对 象 的 无 等 待 实现 ， 则 称 类 C 是 通用 
的 。 在 构造 中 可 以 使 用 类 C 的 多 个 对 象 ， 这 是 因为 我 们 最 终 感 兴趣 的 是 对 机 器 指令 同步 能 力 的 
理解 ， 而 大 多 数 机 器 允许 其 指令 作用 到 多 个 存储 单元 上 。 在 实现 中 允许 使 用 多 个 读 / 写 寄存 器 ， 
这 是 因为 它们 便于 矫 记 ,而且 现 代 系统 结构 通常 支持 大 量 的 存储 器 。 为 了 避免 分 散 注意 力 ， 
对 所 使 用 的 读 / 写 寄存 器 的 数量 和 一 致 性 对 象 的 个 数 不 作 任何 限制 ， 而 关于 存储 器 的 回收 问题 
则 留 作 习题 。 本 章 首先 给 出 一 种 无 锁 实 现 ， 然 后 对 其 进行 扩展 使 之 变 成 一 种 更 加 复杂 的 无 等 
待 实现 。 


6.3 一 种 通用 的 无 锁 构 造 


基于 第 3 章 的 调用 -响应 方式 ， 图 6-2 描 述 了 顺序 对 象 的 一 般 定义 。 每 个 对 象 以 固定 的 初始 
状态 被 创建 。app1y( ) 方 法 以 调用 作为 参数 ， 它 描述 了 正在 被 调用 的 方法 及 其 参数 ， 并 返回 一 
个 响应 ， 其 中 包含 着 该 方法 调用 的 终止 条 件 (正常 或 异常 ) 以 及 可 能 的 返回 值 。 例 如 ， 一 个 栈 调 
用 可 以 是 push( ) 及 一 个 参数 ， 而 对 应 的 响应 则 是 正常 和 空 。 





1 public interface Seq0bject { 
2 public abstract Response apply(Invoc invoc); 
3 


图 6-2 通用 的 顺序 对 象 : app1y( ) 方 法 执行 调用 并 返回 一 个 响应 


图 6-3 和 图 6-4 描 述 了 一 种 通用 构造 ， 能 把 任何 顺序 对 象 转化 为 可 线性 化 的 无 锁 并 发 对 象 。 
该 构造 假设 顺序 对 象 是 确定 的 : 如 果 调 用 某 一 特定 状态 的 对 象 的 方法 ， 则 只 有 一 个 响应 和 一 
种 可 能 的 新 对 象 状态 。 可 以 将 任意 的 对 象 看 作 是 处 于 初始 状态 的 顺序 对 象 和 日 志 的 结合 : 日 
志 是 一 个 由 结 点 组 成 的 链表 ， 描 述 了 对 该 对 象 的 方法 调用 序列 ( 即 对 象 的 状态 转换 序列 )。 线 
程 通过 在 表 头 增加 一 个 描述 本 次 调用 的 新 结 点 来 执行 一 个 方法 调用 。 然 后 ， 线 程 从 尾 到 头 反 
向 遍历 链表 ， 对 该 对 象 的 私有 拷贝 执行 方法 调用 。 最 终 ， 该 线程 返回 只 执行 了 它 自己 的 操作 
的 结果 。 关 键 是 要 理解 只 有 日 志 头 是 可 变 的 : 初始 状态 和 日 志 头 的 前 驱 结 点 决 不 会 改变 。 

如 何 使 这 种 基于 日 志 的 构造 变 为 并 发 的 ， 即 允许 线程 并 发 地 调用 app1y()? 试图 调用 
app1y() 的 线程 创建 一 个 结 点 来 保存 它 的 调用 。 然 后 ， 这 些 并 发 线程 相互 竞争 以 将 它们 各 自 的 
结 点 加 入 到 日 志 头 ， 它 们 通过 运行 一 个 ?线程 一 致 性 协议 ， 以 决定 哪 一 个 结 点 被 添加 到 日 志 中 。 
该 一 致 性 协议 的 输入 是 对 这 些 线程 结 点 的 引用 ， 而 输出 则 是 唯一 的 获胜 结 点 。 

然后 ， 获 胜 者 继续 计算 它 的 响应 。 首 先 创建 该 顺序 对 象 的 一 个 局 部 拷贝 ， 按 照 next 引 用 
从 尾 到 头 反 向 遍历 日 志 ， 在 日 志 中 对 它 的 局 部 拷贝 执行 操作 ， 最 后 返回 与 它 自己 的 调用 相关 
的 响应 。 该 算法 即使 在 并 发 地 调用 app1y() 时 也 能 正常 工作 ， 因 为 日 志 中 直到 该 线程 结 点 之 前 
的 前 缀 决 不 会 改变 。 那 些 没 有 被 一 致 性 对 象 选中 的 失败 者 线程 ， 必 须 再 次 尝试 把 日 志 头 部 
(在 尝试 中 会 变化 ) 的 当前 结 点 设置 为 指向 它们 。 

现在 来 详细 地 分 析 这 个 构造 。 图 6-4 给 出 了 这 种 通用 无 锁 构造 的 相关 代码 。 图 6-5 是 该 构造 
的 一 个 执行 实例 。 对 象 的 状态 由 结 点 的 链表 所 定义 ， 每 个 结 点 包含 一 个 调用 。 图 6-3 为 结 点 的 
代码 。 结 点 的 decideNext 域 是 一 个 一 致 性 对 象 ， 用 来 决定 下 一 个 被 添加 到 链表 中 的 结 点 ， 


第 6 章 一 致 性 的 通用 性 89 


next 域 用 于 存放 一 致 性 协议 的 结果 (对 下 一 个 结 点 的 引用 ) 。seq 域 是 结 点 在 链表 中 的 序号 。 
车 结 点 还 没有 被 线程 加 入 链表 ， 则 该 域 的 值 为 0， 否 则 为 一 个 正 数 值 。 链 表 中 后 继 结 点 的 序号 
每 次 增加 1。 初 始 时 ， 日志 中 只 有 一 个 序号 为 1 的 哨兵 结 点 。 


1 public class Node { 

2 public Invoc invoc; // method name and args 
3 public Consensus<Node> decideNext; // decide next Node in list 
4 public Node next; // the next node 

5 public int seq; // sequence number 

6 public Node(Invoc invoc) { 

7 invoc = invoc; 

8 decideNext = new Consensus<Node>() 

9 seg = 0; 

10 } 

11 public static Node max(Node[] array) { 

12 Node max = array[0]; 

13 for (int i = 1; i < array.length; i++) 

14 if (max.seq < array[i].seq) 

15 max = array[i]; 

16 return max; 

17 } 

18 } 











图 6-3 Node% 





public class LFUniversal { 
private Node[] head; 
private Node tail; 
public Universal() { 
tail = new Node(); 
tail.seq = 1; 
for (int i = 0; i < n; i++) 
head[i] = tail 
} 


public Response apply(Invoc invoc) { 
int i = ThreadID.get(); 
Node prefer = new Node(invoc); 





1 
2 
3 
4 
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13 while (prefer.seq == 0) { 

14 Node before = Node.max (head); 

15 Node after = before.decideNext.decide(prefer) ; 
16 before.next = after; 

17 after.seq = before.seq + 1; 

18 head[i] = after; 

19 } 

20 SeqObject myObject = new SeqObject(); 
21 Node current = tail.next; 

22 while (current != prefer) { 

23 myObject.apply(current.invoc) ; 

24 current = current.next; 

25 } 

26 return myObject.apply(current.invoc); 








图 6-4 通用 的 无 锁 算 法 


加 ”创建 一 个 可 重用 的 一 致 性 对 象 ， 或 者 创建 一 个 只 有 决定 值 是 可 读 的 一 致 性 对 象 ， 并 不 是 一 项 简单 的 任务 














图 6-5 通用 无 锁 构 造 的 执行 过 程 。 线 程 2 在 哨兵 结 点 的 decideNext 域 上 赢得 一 致 性 协议 ， 
把 第 二 个 结 点 添加 到 日 志 中 。 然 后 将 结 点 的 序号 从 0 置 为 2， 并 让 它 在 head[] 数 组 中 
的 数据 项 指向 它 的 结 点 。 线 程 7 在 哨兵 结 点 的 decideNext 域 的 一 致 性 协议 中 失败 ， 
将 next 引 用 和 决定 的 后 继 结 点 的 序号 设置 为 2 (它们 已 经 被 线程 2 设置 为 相同 的 值 )， 
并 让 它 在 head[] 数 组 中 的 数据 项 指向 该 结 点 。 线 程 5 增加 第 三 个 结 点 ， 修 改 它 的 序 
号 为 3， 并 让 它 在 head[] 数 组 中 的 数据 项 指向 该 结 点 。 最 后 ,线程 2 增加 第 四 个 结 点 ， 
将 它 的 序号 置 为 4， 并 让 它 在 head[] 数 组 中 的 数据 项 指向 该 结 点 。head 数 组 中 的 最 
大 值 总 是 指向 日 志 的 头 

通用 并 发 无 锁 构 造 的 设计 难点 就 在 于 一 致 性 对 象 只 能 被 使 用 一 次 。9 

在 图 6-4 所 示 的 无 锁 算 法 中 ， 每 个 线程 分 配 一 个 结 点 来 保存 它 的 调用 ， 然 后 不 断 地 尝试 把 
该 结 点 添加 到 日 志 的 头 部 。 每 个 结 点 有 一 个 decideNext 域 ， 该 域 是 一 个 一 致 性 对 象 。 每 个 线 
程 将 它 的 结 点 作为 关于 头 部 的 decideNext 域 的 一 致 性 协议 的 输入 ， 来 尝试 将 其 结 点 加 入 到 日 
志 中 。 由 于 不 参加 一 致 性 协议 的 线程 需要 反 向 遍历 链表 ， 所 以 将 该 一 致 性 协议 的 结果 存放 在 
结 点 的 next 域 中 。 多 个 线程 可 以 同时 修改 这 个 域 ,但 它们 都 写 入 相同 的 值 。 当 一 个 线程 的 结 
点 被 加 入 到 日 志 时 ， 该 线程 则 设置 这 个 结 点 的 序号 。 

一 旦 某 个 线程 的 结 点 成 为 日 志 的 一 部 分 ， 它 就 从 日 志 尾 部 到 最 近 被 加 入 的 结 点 反 向 遍历 
日 志 ， 并 计算 出 与 其 调用 相对 应 的 响应 。 它 在 这 个 对 象 的 私有 拷贝 上 执行 每 个 调用 ， 并 和 返回 
它 自 己 调用 的 响应 。 注 意 ， 当 一 个 线程 计算 其 响应 时 ， 它 的 所 有 前 驱 结 点 的 next 引 用 必定 已 
经 被 设置 ， 因 为 这 些 结 点 已 加 入 到 链表 的 头 部 。 任 何在 链表 中 增加 了 结 点 的 线程 必定 已 用 
decideNext 一 致 性 协议 的 结果 修改 了 它 的 next 引 用 。 

如 何 确定 日 志 的 头 ?” 由 于 要 对 日 志 头 不 断 地 进行 修改 ， 同 时 每 个 线程 只 能 对 一 致 性 对 象 
访问 一 次 ， 所 以 不 能 用 一 致 性 对 象 来 记录 日 志 头 。 取 而 代 之 ， 我 们 创建 一 种 类 似 于 第 2 章 
Bakery 算 法 所 使 用 的 针对 每 一 个 线程 的 结构 。 采 用 一 个 "元 数组 head[] ， 其 中 head[ 引 是 线程 记 , 
观察 到 的 链表 中 的 最 后 一 个 结 点 。 开 始 时 ，head[] 中 的 每 个 项 都 指向 哨兵 结 点 tai1。 日 志 的 
头 元 素 则 是 head[] 数 组 所 指向 结 点 中 具有 最 大 序号 的 结 点 。 图 6-3 中 的 max( ) 方 法 完成 了 一 次 收 
集 ， 读 head[] 的 所 有 项 并 返回 具有 最 大 序号 的 结 点 。 

该 构造 是 顺序 对 象 的 一 种 可 线性 化 实现 。 每 个 app1y( ) 调 用 能 够 在 一 致 性 协议 调用 中 将 结 
点 增加 到 日 志 中 的 时 间 点 被 线性 化 。 





其 实质 与 将 要 设计 的 通用 构造 是 同一 个 问题 。 例 如 ， 对 于 第 5 章 中 基于 队列 的 一 致 性 协议 ， 在 已 作出 决定 
之 后 ， 如 何 通过 Queue 来 重复 读 该 一 致 性 对 象 的 状态 并 不 是 显而易见 的 。 
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这 种 构造 为 什么 是 无 锁 的 ?即日 志 头 (最 近 被 加 入 的 结 点 ) 是 在 有 限 步 内 被 加 入 到 head[] 
数组 中 的 。 因 为 该 结 点 的 前 驱 必定 在 head 数 组 中 ， 所 以 任何 正在 反复 尝试 增加 新 结 点 的 结 点 
都 将 不 断 地 在 head 数 组 上 执行 max( ) 函 数 。 它 检测 这 个 前 驱 元 素 ， 对 它 的 decideNext 域 调用 一 
致 性 协议 ， 然 后 修改 获胜 结 点 的 域 及 其 序号 。 最 后 ， 它 将 决定 的 结 点 存放 在 该 结 点 线程 的 
head 数 组 项 中 。 新 的 头 结 点 最 终 总 会 出 现在 head[] 中 。 这 说 明 一 个 线程 把 它 自己 的 结 点 添加 到 
日 志 中 而 又 不 断 失败 的 唯一 可 能 就 是 其 他 线程 不 断 地 将 自己 的 结 点 成 功 地 添加 到 日 志 中 。 因 
此 ， 只 有 当 其 他 结 点 不 停 地 完成 它们 的 调用 时 ， 一 个 结 点 才 会 被 饿 死 ， 从 而 说 明 该 构造 是 无 
锁 的 。 


6.4 一 种 通用 的 无 等 待 构造 


如 何 使 无 锁 的 算法 变 成 无 等 待 的 呢 ?” 图 6-6 给 出 了 完整 的 无 等 待 算法 。 我 们 必须 保证 每 个 
线程 在 有 限 步 内 完成 app1y( ) 调 用 ， 即 线程 不 会 饿 死 。 为 了 保证 这 个 特性 ， 正 在 演进 的 线程 应 
该 帮助 那些 不 幸 的 线程 完成 它们 的 调用 。 这 种 帮助 模式 稍 后 将 以 一 种 专用 的 形式 出 现在 其 他 
无 等 待 算法 中 。 

为 了 允许 帮助 ， 每 个 线程 必须 要 和 其 他 线程 一 起 共享 它 正在 试图 完成 的 app1y() 调 用 。 为 
此 ， 我 们 增加 一 个 z 元 数组 announce[]， 其 中 announce[i] 是 线程 正在 尝试 加 入 到 链表 中 的 结 
点 。 开 始 时 ， 所 有 的 数组 项 都 指向 哨兵 结 点 (其 序号 为 1)。 当 线程 i 把 一 个 结 点 存 入 在 
announce[ 训 时 ， 它 就 通知 这 个 结 点 。 


1 public class Universal { 

2 private Node[] announce; // array added to coordinate helping 
3 private Node[] head; 

4 private Node tail = new node(); tail.seq = 1; 

5 for (int j=0; j < n; j++) {head[j] = tail; announce[j] = tail}; 
6 public Response apply(Invoc invoc) { 

7 int i = ThreadID.get(); 

8 announce[i] = new Node(invoc); 

9 head[i] = Node.max(head); 

10 while (announce[i].seq == 0) { 

11 Node before = head[i]; 

12 Node help = announce[(before.seq + 1) % n]; 
13 

14 

15 

16 

17 

18 

19 





— O 





if (help.seq == 0) 
prefer = help; 
else 
prefer = announce[i]; 
Node after = before.decideNext.decide(prefer) ; 
before.next = after; 
after.seq = before.seq + 1; 


20 head[i] = after; 

21 } 

22 SeqObject MyObject = new SeqOQbject(); 
23 Node current = tail.next; 

24 while (current != announce[i]) { 

25 MyObject.apply(current.invoc); 

26 current = current.next; 

27 

28 head[i] = announce[i]; 

29 return MyObject.apply(current.invoc) ; 
30 











图 6-6 通用 的 无 等 待 算法 
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为 了 执行 app1y()， 线 程 首先 要 通知 它 的 新 结 点 。 这 一 步 能 够 确保 如 果 该 线程 自己 未 能 成 
功 地 把 它 的 结 点 加 入 链表 ， 那 么 其 他 的 某 个 线程 将 会 按照 它 自己 的 立场 将 那个 结 点 加 入 链表 。 
然后 像 以 前 一 样 前 进 ， 尝 试 着 把 该 结 点 加 入 日 志 。 为 此 ， 它 对 head[] 数 组 只 读 一 次 (第 9 行 ) 
就 进入 算法 的 主 循环 ， 然 后 一 直 循 环 到 它 自己 的 结 点 被 加 入 到 链表 (在 第 10 行 中 ， 当 其 序号 
变 为 非 零 时 被 检测 到 )。 下 面 是 对 无 锁 算法 的 改进 。 线 程 首先 进行 检查 ， 查 看 数组 announce[] 
中 在 它 前 面 是 否 有 需要 帮助 的 结 点 (第 12 行 )。 由 于 结 点 不 断 地 加 入 日 志 中 ， 所 以 要 被 帮助 的 
结 点 必定 是 动态 决定 的 。 线 程 以 递增 的 次 序 尝 试 着 去 帮助 announce[] 数 组 中 的 结 点 ， 该 次 序 
由 序号 对 数组 announce[] 的 长 度 n 进 行 求 模 来 决定 。 我 们 将 证 明 这 种 方法 能 够 保证 对 于 任何 自 
己 无 法 前 进 的 结 点 ,一旦 其 获胜 者 线程 的 索引 与 最 大 序号 模 n 的 结果 值 相 匹配 ， 最 终 都 能 得 到 
其 他 结 点 的 帮助 。 如 果 该 帮助 步骤 被 省 略 掉 ， 那 么 一 个 单独 的 线程 有 可 能 被 超过 任意 次 。 如 
果 被 选中 进行 帮助 的 结 点 不 需要 帮助 (在 第 13 行 中 序号 非 零 )， 那 么 每 个 线程 都 尝试 增加 它 自 
己 的 结 点 (第 16 行 )。( 所 有 的 announce[] 数 组 项 被 初始 化 为 指向 具有 非 零 序 号 的 哨兵 结 点 。) 
算法 的 余下 部 分 与 无 锁 算法 基本 相同 。 当 结 点 序号 变 为 非 零 时 被 加 入 。 在 这 种 情形 下 ， 线 程 
和 以 前 一 样 继续 前 进 ， 基 于 日 志 中 从 尾 到 其 自己 结 点 的 不 变 部 分 来 计算 它 的 结果 。 

图 6-7 描 述 了 通用 无 等 待 构造 的 一 个 执行 过 程 。 从 初始 状态 开始 ， 线 程 5 通知 它 的 新 结 点 
并 把 该 结 点 加 入 到 日 志 中 ， 但 在 将 结 点 加 入 head[] 之 前 暂停 。 接 下 来 线程 7 开始 执行 。 因 为 
before. seq 的 值 1 模 n+ 的 结果 为 2， 所 以 线程 7 尝试 帮助 线程 2。 由 于 线程 5 已 经 获胜 ， 所 以 线 
程 7 在 对 哨兵 结 点 decideNext 引 用 的 一 致 性 协议 中 将 成 为 失败 者 ， 因 此 ， 将 完成 线程 5 的 操作 ， 


初始 时 所 有 项 都 指向 哨兵 结 点 
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初始 时 所 有 项 都 指向 哨兵 结 点 


图 6-7 通用 无 等 待 构造 的 执行 过 程 。 线 程 5 通知 它 的 新 结 点 并 把 该 结 点 加 入 到 日 志 中 ， 但 
在 把 结 点 加 入 数组 head[] 之 前 暂停 。 另 一 个 线程 7 在 数组 head[] 中 不 会 看 到 线程 5 的 
结 点 ， 所 以 尝试 帮助 线程 (before. seq + 1 mod n)， 求 出 该 值 为 2。 在 帮助 线程 2 时 ， 
由 于 线程 5 已 经 获胜 ， 所 以 线程 7 在 对 哨兵 结 点 decideNext 引 用 的 一 致 性 协议 中 成 
为 失败 者 。 因 此 ， 线 程 7 将 完成 修改 线程 5 的 结 点 的 域 ， 并 将 结 点 的 序号 设置 为 2， 
同时 将 该 结 点 加 入 数组 head[] 中 。 注 意 ， 线 程 5 自 己 在 数组 head[] 中 的 项 还 没有 被 
设置 为 它 所 通知 的 结 点 。 接 下 来 ， 线 程 2 通知 它 的 结 点 ， 同 时 线程 7 在 将 线程 2 的 结 
点 加 入 中 获得 成 功 ， 从 而 把 线程 2 的 结 点 序号 设置 为 3。 现 在 线程 2 醒 来 。 由 于 它 的 
结 点 序号 不 为 零 ， 所 以 不 进入 主 循环 ， 但 会 在 第 28 行 继续 修改 head[]， 并 使 用 顺序 
对 象 的 一 个 拷贝 来 计算 其 输出 值 
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把 结 点 序号 设 为 2 并 将 线程 5 的 结 点 加 入 数组 head[] 中 。 现 在 设想 线程 2 立即 通知 它 的 结 点 。 线 
程 7 则 成 功 地 加 入 线程 2 的 结 点 ， 但 在 把 线程 2 的 结 点 序号 设 为 3 并 准备 把 它 加 入 head[] 之 前 再 
次 暂停 。 现 在 线程 2 醒 来 。 由 于 它 的 结 点 序号 不 为 零 ， 所 以 不 进入 主 循环 ， 但 会 在 第 28 行 继续 
修改 head[] ， 并 使 用 顺序 对 象 的 一 个 拷贝 来 计算 其 输出 值 。 

对 无 锁 算法 的 这 些 修 改 中 有 一 个 精妙 之 处 。 由 于 不 止 一 个 线程 试图 把 一 个 特定 的 结 点 加 
入 日 志 中 ， 因 此 必须 保证 结 点 不 能 被 两 次 加 入 日 志 。 一 个 线程 可 能 正在 添加 结 点 ， 设 置 结 点 
的 序号 ， 而 与 此 同时 ， 另 一 个 线程 可 能 已 增加 了 同一 结 点 并 设置 了 序号 。 算 法 应 避免 这 种 由 
于 线程 读数 组 head[] 的 最 大 值 和 数组 announce[] 中 结 点 序号 的 次 序 所 带 来 的 错误 。 设 a 是 由 线 
程 A4 所 创建 并 被 线程 A4 和 B 添 加 到 日 志 中 的 结 点 。 在 第 二 次 被 添加 之 前 ， 该 结 点 已 至 少 一 次 被 
加 入 到 head[] 中 。 但 要 注意 ， 由 8 从 head[4] 中 读 出 的 before 结 点 (第 11 行 ) 一 定 是 a 本 身 或 者 
a 在 日 志 中 的 后 继 结 上 点。 况且， 在 任何 结 点 被 加 入 到 head[] 之 前 (第 20 行 或 第 28 行 )， 其 序号 
已 被 设 为 非 零 (第 19 行 )。 操 作 的 次 序 确保 3 在 第 9 行 或 第 20 行 设置 它 的 head[B] 项 (基于 该 项 
来 设置 3 的 before 变 量 ， 从 而 导致 一 个 错误 的 增加 )， 只 有 这 时 ， 才 能 确认 a 的 序号 在 第 10 和 
13 行 为 非 零 (取决 于 是 4 还 是 另 一 个 线程 执行 该 操作 )。 由 此 可 见 ， 对 错误 的 第 二 次 增加 的 验 
证 将 会 失败 ， 因 为 结 点 a 的 序号 已 经 为 非 零 ， 它 不 会 被 第 二 次 加 入 到 日 志 中 。 

因为 结 点 不 会 被 二 次 加 入 日 志 中 ， 而 且 结 点 加 入 日 志 的 次 序 显 然 与 对 应 方法 调用 的 偏 序 
次 序 相 一 致 ， 所 以 保证 了 可 线性 化 性 。 

为 了 证 明 算 法 是 无 等 待 的 ， 需 要 证 明 这 种 帮助 机 制 能 够 保证 任何 被 通知 的 结 点 最 终 会 加 
入 到 数组 head[] 中 〈 意 味 着 它 在 日 志 中 )， 并 且 发 出 通知 的 线程 能 够 完成 对 其 结果 的 计算 。 为 
便于 证 明 ， 首 先 定义 一 些 符号 。 令 max(head[]) 是 数组 head[] 中 序号 最 大 的 结 点 ,， “cEhead[]” 
则 表示 对 于 某 个 i， 结 点 c 已 被 赋予 head[i]。 

辅助 变量 (有 时 称 作 幻 影 变 量 ) 是 在 代码 中 没有 显 式 出 现 的 量 ， 它 不 以 任何 方式 影响 程 
序 的 行为 ,但 有 助 于 我 们 推理 算法 的 行为 。 下 面 是 一 些 常用 的 辅助 变量 : 

。concur(4) 是 自 线程 4 最 后 一 次 通知 后 ， 被 存放 在 数组 head[] 中 的 结 点 的 集合 。 

。start(4) 是 在 线程 A4 最 后 一 次 通知 时 ， 结 点 max(head[]) 的 序号 。 

图 6-8 给 出 了 反映 辅助 变量 以 及 它们 是 如 何 被 修改 的 程序 代码 段 。 例 如 ， 语 句 

(Wj)concur( j )=concur( j )Uafter 
BAD FAW es, E4 Rafter IA Blconcur(j) PF, RES PAO RGIS BEET 
行 的 。 由 于 辅助 变量 不 会 以 任何 方式 影响 计算 ， 所 以 可 以 假定 这 种 原子 性 。 为 简单 起 见 ， 可 
以 让 作用 于 结 点 或 结 点 数组 的 函数 max(0 返 回 它 们 序号 中 的 最 大 值 。 
注意 ， 下 面 的 性 质 在 通用 算法 的 整个 执行 过 程 中 是 不 变 的 : 
Iconcur(A)l+start(A)=max(head[]) (6.4.1) 
引 理 6.4.1 对 于 所 有 的 线程 4， 下 述 断 言 总 是 成 立 的 : 
Iconcur(A)l>n=announce[A]Ehead[] 

证 明 如果 lconcur(4)l>n， 则 concur(4) 中 包含 连续 的 结 点 bp 和 c (由 线程 8 和 C 加 入 到 日 志 
中 )， 它 们 各 自 的 序号 加 上 1 模 n 分 别 等 于 A 一 1 和 A (注意 ，b 和 c 是 由 线程 B 和 C 添 加 到 日 志 中 的 
结 点 ， 但 并 不 要 求 是 由 B 和 C 通 知 的 结 点 )。 根 据 第 12 到 16 行 的 代码 ， 线 程 C 将 把 4 在 announce[] 
中 的 数组 项 所 确定 的 结 点 增加 到 日 志 中 。 现 在 需要 证 明 当 它 这 样 做 时 ，announce[A] 已 被 通知 
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了 ， 所 以 c 将 加 入 announce[4] 或 者 announce[4] 已 经 被 加 入 。 随 后 ， 当 c 被 加 入 head[] 且 
lconcur(A)l>n 时 ，announce[A] 将 会 像 引 理 所 要 求 的 那样 在 head[] 中 。 








1 public class Universal { 

2 private Node[] announce; 

3 private Node[] head; 

4 private Node tail = new node(); tail.seq = 1; 

5 for (int j=0; j < n; j++){head[j] = tail; announce[j] = tail}; 
6 public Response apply(Invoc invoc) { 

7 int i = ThreadID.get(); 

8 <announce[i] = new Node(invoc); start(i) = max(head) ;> 
9 head[i] = Node.max (head) ; 

10 while (announce[i].seq == 0) { 

11 Node before = head[i]; 

12 Node help = announce[(before.seq + 1) % n]; 

13 if (help.seq == 0) 

14 prefer = help; 

15 else 

16 prefer = announce[i]; 

17 Node after = before.decideNext.decide(prefer) ; 

18 before.next = after; 

19 after.seq = before.seq + 1; 

20 <head[i] = after; (vj) (concur(j) = concur(j)U{after})> 
21 } 

22 SeqObject MyObject = new SeqObject(); 

23 Node current = tail.next; 

24 while (current != announce[i]) { 

25 MyObject.apply(current.invoc) ; 

26 current = current.next; 

27 } 

28 <head[i] = announcefi]; (vj) (concur(j) = concur(j)U{after})> 
29 return MyObject.apply(current.invoc); 

30 

31 } 











图 6-8 采用 辅助 变量 的 通用 无 等 待 算法 。 假 设 尖 括 号 中 的 操作 是 原子 发 生 的 


要 和 弄 清楚 为 什么 当 C 运 行 到 第 12 到 16 行 代码 时 ，announce[4] 已 经 被 通知 ， 需 要 注意 以 下 
几 点 : (1) 因为 C 已 经 把 它 的 结 点 c 加 入 到 b5， 所 以 它 在 第 11 行 必定 会 把 b 读 作 before 结 点 ， 这 音 
味 着 在 第 11 行 C 从 head[] 中 读 取 b 之 前 8 已 增加 了 b，(2) 由 于 5b 在 concur(4) 中 ， 所 以 A 在 b 被 加 入 
到 head[] 之 前 就 已 通知 了 。 根据 传递 性 ， 从 (1) 和 (2) 可 得 出 C 执 行 第 12 到 16 行 之 前 4 已 经 通知 了 ， 
所 以 命题 成 立 。 

引 理 6.4.1 对 方法 调用 时 可 以 增加 的 结 点 个 数 做 了 限制 。 下 面 给 出 一 系列 引 理 来 说 明 当 4 结 
东 扫 描 数 组 head[] 时 ， 或 者 announce[A] 被 加 入 ， 或 者 head[A] 在 表 尾 的 z+1 个 结 点 中 。 

引 理 6.4.2 下 面 的 性 质 总 是 成 立 的 : 

max(head[]) > start(A) 


证 明 head[ AY FS AF OKAY. 

引 理 6.4.3 下 面 是 图 6-3 中 第 13 行 的 循环 不 变量 ( 指 循环 的 每 次 迭代 中 都 保持 不 变 ) : 
max(head[A],head[ j],---,head[]—1) >start(A) 

其 中 ,为 循环 索引 。 

换 名 话说，head[4] 以 及 从 当前 值 /) 到 循环 结束 时 所 有 head[] 项 的 最 大 序号 决 不 会 小 于 4 通 
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知 时 数组 中 的 最 大 值 。 
WEAR 若 j 为 0， 则 3 引 理 6.4.2 隐 含 说 明 该 命题 成 立 。 当 head[A] 被 序号 为 max(head[A4]， i 
head[ 放 的 结 点 替代 时 ， 在 每 次 迭代 过 程 中 命题 都 成 立 。 135 














引 理 6.4.4 下 面 的 命题 只 在 第 10 行 以 前 成 立 : 
head[A].seq > start(A) 
证 明 注意 只 有 在 第 20 行 或 28 行 ，head[4] 才 会 被 设置 为 指向 4 的 最 后 增加 的 结 点 。 因 此 ， 
在 第 9 行 执行 了 Node.max() 调 用 之 后 ，max(head[A],head[0],…, head[n 一 1]) 只 能 为 head[A].seg， 
由 引 理 6.4.3 可 知 命题 成 立 。 
引 理 6.4.5 下 述 性 质 总 是 成 立 的 : 
Iconcur(A)|>head[A]. seq—start(A) >0 


证 明 下 界 可 由 引 理 6.4.4 推 出 ， 上 界 可 由 等 式 (6.4.1) 推出 。 

定理 6.4.1 图 6-6 中 的 算法 是 正确 的 并 且 是 无 等 待 的 。 

证 明 ”要 证 明 算法 是 无 等 待 的 ， 需 注意 4 执行 主 循 环 不 超过 n+1 次 。 在 每 次 成 功 的 迭代 中 ， 
head[A].seq 增 加 1。 在 n+1 次 从 代 后 ， 由 引 理 6.4.5 可 得 : 


Iconcur(A)|>head[A]. seq—start(A) =n 


由 引 理 6.4.1 可 知 announce[4] 必 定 已 被 加 入 到 head[] 中 。 
6.5 本 章 注 释 


本 章 描述 的 通用 构造 源 于 Maurice Herlihy 在 1991 年 发 表 的 论文 [62]。 另 一 种 采用 链接 加 载 
/条 件 存 储 的 通用 无 锁 构 造 则 出 自 文献 [60]。 这 种 构造 的 复杂 度 可 以 通过 多 种 方式 进行 改进 。 
Yehuda Afek, Dalia Dauber 和 Dan Touitou[3] 描 述 了 如 何 提高 时 间 复 杂 度 使 其 依赖 于 并 发 线程 
的 个 数 而 不 是 可 能 的 最 大 线程 个 数 。Mark Moir[118] 给 出 了 无 需 拷贝 整个 对 象 的 无 锁 且 无 等 待 
的 构造 。James Anderson 和 Mark Moir[11] 对 这 种 构造 进行 了 扩展 ， 人 允许 多 个 对 象 被 修改 。 
Prasad Jayanti[80] 证 明了 任何 通用 构造 在 最 坏 情 况 下 的 复杂 度 为 2(n)， 其 中 n 是 最 大 线程 个 数 。 
Tushar Chandra, Prasad Jayanti 和 King Tan[26] 则 给 出 了 许多 对 象 ， 指 出 对 这 些 对 象 存 在 更 有 
效 的 通用 构造 。 136 


6.6 习题 


习题 76. 举例 说 明 具 有 不 确定 顺序 规范 的 对 象 其 通用 构造 可 能 会 失败 。 

习题 77. 给 出 一 种 解决 方法 ， 使 通用 构造 能 适 于 具有 不 确定 顺序 规范 的 对 象 。 

习题 78. 在 无 锁 和 无 等 待 的 通用 构造 中 ， 表 tail1 的 哨兵 结 点 的 序号 被 初始 化 为 1。 如 果 哨 兵 结 点 的 
序号 被 初始 化 为 0， 这 两 个 算法 中 的 哪 一 个 〈 如 果 有 的 话 ) 将 会 出 错 ? 

习题 79. 不 用 通用 构造 而 只 使 用 一 致 性 协议 来 实现 一 种 具有 read( ) 和 compareAndSet() 方 法 的 可 线 
性 化 无 等 待 寄存 器 。 说 明 如 何 改写 这 个 算法 。 

习题 80. 在 本 章 的 构造 中 ， 每 个 线程 首先 查找 另 一 个 线程 进行 帮助 ， 然 后 再 尝试 加 入 它 自己 的 
结 点 。 

假设 每 个 线程 首先 尝试 加 入 它 自己 的 结 点 ， 然 后 再 去 帮助 其 他 的 线程 。 解 释 这 个 方法 是 否 

可 行 。 证 明 你 的 结论 。 
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习题 81. 在 图 6-4 的 构造 中 ， 我 们 使 用 “ 头 ”引用 (指向 试图 修改 其 decideNext 域 的 结 点 ) 的 “分 
布 式 ”实现 来 避免 创建 允许 重复 一 致 性 的 对 象 。 请 用 一 种 无 需 head 引 用 的 实现 来 替换 这 种 实现 ， 
通过 从 开始 向 下 遍历 日 志 ， 直 到 到 达 一 个 序号 为 0 或 者 具有 最 大 非 0 序 号 的 结 点 来 找 出 下 一 个 
习题 82. 对 无 锁 协 议 进行 修改 ， 让 一 个 线程 在 第 28 行 把 它 最 新 加 入 的 结 点 添加 到 数组 pead 中 ， 即 使 
该 结 点 在 第 20 行 已 被 加 入 了 。 这 一 步 是 必需 的 ， 因 为 和 无 锁 协 议 不 同 ， 该 线程 的 结 点 在 第 20 行 
有 可 能 已 被 另 一 个 线程 加 入 ， 而 那个 “帮助 ”线程 恰好 在 第 20 行 停止 ， 此 刻 该 结 点 的 序号 已 被 
修改 但 数组 head 还 未 被 修改 。 
1. 解释 为 什么 删除 第 28 行 会 违背 引 理 6.4.4。 
2. 该 算法 还 能 正常 工作 吗 ? 
习题 83. 给 出 一 种 能 使 通用 构造 适 于 有 界 数量 的 存储 器 的 解决 办 法 ， 也 就 是 说 ， 能 适 于 有 限 个 数 的 
一 致 性 对 象 和 有 限 个 数 的 读 / 写 寄存 器 。 
提示 : 在 结 点 中 增加 一 个 before 域 ， 并 在 代码 里 构建 一 种 存储 器 回收 方案 。 
习题 84. 实现 一 种 一 致 性 对 象 ， 每 个 线程 可 以 通过 调用 read( ) 和 compareAndSet( ) 方 法 多 次 地 访问 
该 对 象 ， 即 构建 一 种 “多 路 存 取 ”的 一 致 性 对 象 。 不 允许 使 用 通用 构造 。 
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事务 内 存 
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The Art of Multiprocessor Programming (Revised First Edition) 


自 旋 锁 与 争 用 


在 单 处 理 器 上 编写 程序 时 ， 通 常 不 用 考虑 系统 底层 系统 结构 的 细节 。 然 而 不 幸 的 是 ， 对 
多 处 理 器 的 编程 目前 还 不 能 做 到 这 点 ， 对 机 器 底层 系统 结构 的 理解 在 多 核 编程 中 仍 起 着 至 关 
重要 的 作用 。 本 章 的 目的 就 是 理解 系统 结构 对 系统 性 能 会 产生 什么 样 的 影响 ， 以 及 如 何 利用 
这 些 知识 来 编写 高 效 的 并 发 程序 。 本 章 对 已 熟悉 的 互 斥 问题 重新 进行 研究 ， 其 目的 在 于 设计 
出 适 于 多 处 理 器 的 互 斥 协议 。 

任何 互 斥 协议 都 会 产生 这 样 的 问题 : 如 果 不 能 获得 锁 ， 应 该 怎么 做 ? 对 此 有 两 种 选择 。 
一 种 方案 是 让 其 继续 进行 尝试 ， 这 种 锁 称 为 自 旋 锁 ， 对 锁 的 反复 测试 过 程 称 为 旋转 或 忙 等 待 。 
Filter 和 Bakery 算 法 都 属于 自 旋 锁 。 在 希望 锁 延 迟 较 短 的 情形 下 ， 选 择 旋 转 的 方式 比较 合 平 情 
理 。 显 然 ， 只 有 在 多 处 理 器 中 旋转 才 有 实际 意义 。 另 一 种 方案 就 是 挂 起 自己 ,请求 操作 系统 
调度 器 在 处 理 器 上 调度 另外 一 个 线程 ， 这 种 方式 称 为 阻塞 。 由 于 从 一 个 线程 切换 到 另 一 个 线 
程 的 代价 比较 大 ， 所 以 只 有 在 允许 锁 延 迟 较 长 的 情形 下 ， 阻 塞 才 有 意义 。 许 多 操作 系统 将 这 
两 种 策略 综合 起 来 使 用 ， 先 旋转 一 个 小 的 时 间 段 然后 再 阻塞 。 旋 转 和 阻塞 都 是 重要 的 技术 。 
本 章 着 重 研 究 采 用 旋转 技术 的 锁 。 


7.1 实际 问题 


本 章 采 用 java.util1.concurrent.1ocks 包 中 的 Lock 接 口 来 解决 实际 的 互 尺 问题 。 我 们 只 
考虑 两 个 最 重要 的 方法 : 1ock( ) 和 un1ock( )。 这 两 个 方法 通常 按照 下 面 这 种 结构 化 的 方式 来 
使 用 : 


1 Lock mutex = new LockImpl(...); // lock implementation 
2 sais 

3 mutex.lock(); 

4 try { 

5 ae // body 

6 } finally { 
7 mutex.unlock(); 
8 


首先 创建 一 个 新 的 Lock 对 象 mutex (第 1 行 )。 由 于 Lock 只 是 一 个 接口 而 并 非 一 个 类 ， 
所 以 不 能 直接 创建 Lock 对 象 。 为 此 ， 需 要 先 构 建 一 个 对 象 来 实现 Lock 接 口 。(java.util. 
concurrent .1ocks 包 中 已 包含 一 些 实现 Lock 的 类 ， 本 章 将 提供 另外 一 些 实现 Lock 的 类 。) 
接 下 来 在 第 3 行 获得 锁 ， 然 后 进入 临界 区 ， 即 第 4 行 的 try 块 。 第 6 行 的 fina11y 块 将 确保 只 
有 在 控制 离开 临界 区 时 才能 释放 锁 。 对 1ock( ) 的 调用 不 允许 放 在 try 块 内 ， 因 为 在 获得 锁 之 
前 1ock() 调 用 可 能 会 抛 出 一 个 异常 ， 这 将 导致 在 实际 上 没有 获得 锁 的 情形 下 fina11y 块 调 
用 了 unlock()。 

为 什么 不 用 第 2 章 介绍 的 算法 (例如 Filter 或 Bakery) 来 实现 高 效 的 Lock 呢 ?其 原因 之 一 就 
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是 第 2 章 已 证 明 的 空间 下 限 : 采用 读 / 写 方式 的 互 斥 所 需 的 空间 与 z 呈 线性 关系 ， 其 中 z 指 可 能 
访问 存储 单元 的 线程 数 。 这 将 使 情况 变 得 很 粳 糕 。 

例如 ， 考 虑 第 2 章 的 双 线 程 Peterson 锁 算法 ， 如 图 7-1 所 示 。 有 两 个 线程 A 和 B， 其 ID 分 别 为 
0 或 1。 若 线程 4 要 获得 锁 ， 则 将 f1ag[4] 置 为 true， 将 victim 置 为 4， 然 后 测试 victim 和 f1ag 
[1 一 A]。 若 测试 失败 ， 则 线程 4 旋转 并 重复 测试 。 一 旦 测试 成 功 ， 线 程 4 则 进入 临界 区 ， 在 它 
离开 时 将 flag[4] 设 为 false。 由 第 2 章 可 知 ，Peterson 锁 支持 无 饥饿 互 不 。 


1 class Peterson implements Lock { 
2 private boolean[] flag = new boolean[2]; 
3 private int victim; 
4 public void lock() { 
5 int i = ThreadID.get(); // either 0 or 1 
6 int j = 1l-i; 
7 flag[i] = true; 
8 victim = i; 
9 while (flag[j] && victim == i) {}; // spin 
0 } 
1 





} 





L 
图 7-1 Peterson 类 (428). 第 7、8 和 9 行 的 读 / 写 次 序 对 于 保障 互 斥 至 关 重 要 


假设 要 编写 一 个 简单 的 并 发 程序 ， 该 程序 的 两 个 线程 反复 地 获得 Peterson 锁 ， 并 将 共享 计 
数 器 加 1， 最 后 释放 锁 。 在 一 台 多 处 理 器 机 器 上 运行 这 个 程序 ， 每 个 线程 执行 “获得 -增加 一 
释放 ”循环 50 万 次 。 在 大 多 数 现代 系统 结构 中 ， 线 程 很 快 就 结束 了 。 然 而 令 人 不 可 思议 的 是 ， 
该 计数 器 的 最 终 值 与 我 们 所 期 望 的 100 万 次 稍微 有 些 出 入 。 就 其 比例 而 言 ， 这 个 错误 或 许 是 很 
小 的 ， 但 是 为 什么 会 存在 错误 呢 ? 不 管 怎样 ， 必 定 存 在 两 个 线程 在 同一 时 刻 都 进入 临界 区 的 
情形 ， 即 使 已 证 明 这 种 情形 是 不 可 能 发 生 的 。 让 我 们 引用 Sherlock Holmes 所 讲 的 : 

我 已 说 过 多 少 次 ? 若 消除 那些 不 可 能 的 ， 无 论 它们 是 多 么 不 可 能 ， 所 剩 下 的 必定 都 

是 事实 。 

一 定 是 我 们 的 证 明 错 了 ， 不 是 在 逻辑 上 有 什么 错误 ， 而 是 对 现实 世界 的 假设 存在 
错误 。 

在 多 处 理 器 编程 中 ， 很 自然 会 假设 读 / 写 操作 是 原子 的 ， 也 就 是 说 ， 它 们 可 以 被 线性 化 为 
某 种 顺序 的 执行 ， 或 者 至 少 应 是 顺序 一 致 的 。( 可 线性 化 性 意味 着 顺序 一 致 性 。.) 正如 第 3 章 所 
讲 的 ， 顺 序 一 致 性 意味 着 存在 某 个 在 所 有 操作 上 的 全 局 次 序 ， 在 这 个 次 序 中 ， 每 个 线程 的 操 
作 都 按照 它 自己 的 程序 所 规定 的 次 序 生 效 。 在 证 明 Peterson 锁 的 正确 性 时 ， 我 们 假设 存储 器 是 
顺序 一 致 的 ， 而 没有 考虑 上 述 因 素 。 特 别 要 注意 的 是 ， 互 斥 与 图 7-1 中 第 7、8 和 9% 行 的 操作 次 
序 相 关 。 而 在 证 明 Peterson 锁 具有 互 斥 特性 时 ， 隐 含 地 基于 这 样 的 假设 : 同一 线程 对 内 存 的 任 
意 两 次 访问 ， 即 使 是 对 不 同 的 变量 ， 也 都 是 按照 程序 顺序 生效 的 。( 具 体 地 说 ，B 对 flag[B] 的 
写 在 B 对 victim 的 写 之 前 已 生效 (公式 (2.3.9)) ，4 对 victim 的 写 在 4 对 fl1ag[B] 的 读 之 前 已 生 
效 (公式 (2.3.11) )， 这 两 点 非常 关键 。) 

然而 不 幸 的 是 ， 现 代 的 多 处 理 器 通常 不 提供 顺序 一 致 的 存储 器 ， 因 此 ， 对 于 给 定 的 线程 ， 
并 不 能 保证 读 / 写 操作 的 程序 次 序 。 

为 什么 不 支持 这 些 特 性 呢 ? 第 一 个 原因 在 于 编译 器 ， 为 了 提高 性 能 ， 编 译 器 要 对 指令 进 
行 重 排序 。 大 多 数 程序 设计 语言 都 能 保证 单个 变量 的 程序 次 序 ， 但 在 多 个 变量 之 间 却 并 非 如 
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此 。 因 此 ， 编 译 器 有 可 能 把 线程 8 对 flag[B] 的 写 和 对 victim 的 写 颠 倒 顺 序 ， 从 而 使 得 公式 
(2.3.9) 无 效 。 第 二 个 原因 则 在 于 多 处 理 器 硬件 本 身 。( 附 录 B 对 本 章 的 多 处 理 器 系统 结构 问 
题 进行 了 全 面 的 讨论 。) 硬件 供应 商 公开 表示 对 多 处 理 器 存储 器 的 写 并 不 一 定 在 写 操作 执行 时 
生效 ， 因 为 在 大 多 数 程序 中 ， 并 不 要 求 写 操作 在 共享 存储 器 中 立即 生效 。 在 多 处 理 器 系统 结 
构 中 ， 对 共享 存储 器 的 写 往 往 被 缓存 在 一 个 特殊 的 写 绥 冲 区 中 (有 时 称 为 存储 缓冲 区 )， 只 有 
在 需要 时 才 写 和 内存。 如 果 线 程 4 对 victim 的 写 在 一 个 写 缓 冲 区 中 被 延迟 ， 那 么 这 个 值 有 可 能 
在 4 读 了 fl1ag[B] 之 后 才 到 达 内 存 ， 从 而 使 公式 (2.3.11) 无 效 。 

在 如 此 弱 的 存储 器 一 致 性 保证 下 ， 如 何 对 多 处 理 器 进行 编程 呢 ? 为 了 防止 写 缓冲 所 带 来 
的 操作 重 排序 ， 现 代 系 统 结构 提供 了 专门 的 内 看 路 障 指令 (有 时 称 为 内 存 栅栏 )， 以 迫使 未 完 
成 的 指令 强行 生效 。 而 在 哪里 插入 内 存 故障 则 是 程序 员 的 责任 (例如 ， 可 以 通过 在 每 次 读 之 
前 放置 一 个 栅栏 来 固定 Peterson 锁 ) 。 训 无 疑问 ， 内 存 路 障 的 代价 是 非常 昂贵 的 ， 大 致 上 与 原 
子 的 compareAndSet( ) 指 令 相 同 ， 因 此 建议 尽量 不 要 使 用 。 而 事实 上 在 大 多 数 系统 结构 中 ， 
像 getAndSet( ) 或 compareAndSet( ) 这 样 的 一 些 同步 指令 ， 在 对 vo1atile 域 进行 读 / 写 操 作 时 ， 
都 包含 一 个 内 存 路 障 。 

若 路 障 和 同步 指令 的 代价 是 一 样 的 ， 那 么 可 以 直接 使 用 getAndSet() 和 compareAndSet() 
这 种 操作 来 设计 互 斥 算法 。 这 些 操作 要 比 reads 和 writes 具 有 更 高 的 一 致 数 ， 可 以 直接 使 用 这 
些 操作 来 对 谁 能 进入 临界 区 的 问题 达成 一 致 。 


7.2 测试 -设置 锁 


一 致 数 为 2 的 testAndSet( ) 操 作 是 大 多 数 早 期 的 多 处 理 器 系统 结构 所 提供 的 主要 同步 指 
令 。 该 指令 对 单个 的 存储 字 (或 字 节 ) 进行 操作 。 字 是 一 个 二 进 制 值 ， 要么 为 true 要 么 为 false。 
testAndSet( ) 操 作 将 true 值 原子 地 存 入 字 中 ， 并 返回 这 个 字 的 先前 值 ， 即 用 值 yruwe 来 交换 字 的 
当前 值 。 初 看 起 来 ， 这 条 指令 似乎 非常 适合 自 旋 锁 。 当 字 的 值 为 jo1se 时 锁 空闲 ， 为 true 时 锁 
忙 。1ock( ) 方 法 对 存储 单元 反复 地 调用 testAndSet(), 直到 指令 返回 false 为 止 ( 即 锁 为 空闲) 。 
unlock( ) 方 法 则 简单 地 将 如 lse 值 写 入 存储 单元 。 

java.util.concurrent 包 具有 一 个 用 于 存放 布尔 值 的 AtomicBoolean 类 。 它 提供 了 用 值 b 
替换 被 存储 值 的 set(b) 方 法 ， 以 及 用 值 b 原 子 地 替换 当前 值 并 返回 先前 值 的 getAndSet(b) 方 法 。 
传统 的 testAndSet( ) 指 令 就 如 同 是 对 getAndSet(true) 的 一 次 调用 。 使 用 术语 测试 -设置 是 为 
了 与 习惯 用 法 保持 一 致 ， 但 本 书 的 例子 使 用 了 表达 式 getAndSet(true)， 其 目的 是 和 Java 相 兼 
容 。 图 7-2 中 的 TASLock 类 描述 了 一 个 基于 testAndSet( ) 指 令 的 锁 算法 。 
public class TASLock implements Lock { 

AtomicBoolean state = new AtomicBoolean(false); 


public void lock{) { 
while (state.getAndSet(true)) {} 








public void unlock() { 
state.set(false); 














图 7-2 TASLock 类 


下 面 考虑 另外 一 种 TASLock 算 法 ， 如 图 7-3 所 示 。 该 算法 并 没有 直接 调用 testAndSet()， 
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而 是 由 线程 反复 地 读 锁 直 到 该 锁 看 起 来 是 空间 的 ( 即 直 到 get( ) 返 回 false)。 只 有 在 锁 看 似 为 
空 几 时， 线程 才能 使 用 testAndSet()。 这 种 技术 称 为 测试 一 测试 设置， 这 种 锁 称 为 
TTASLock, 





1 public class TTASLock implements Lock { 
2 AtomicBoolean state = new AtomicBoolean(false); 
3 public void lock() { 

4 while (true) { 

5 while (state.get()) {}; 

6 if (!state.getAndSet (true) ) 

7 return; 

8 } 

9 } 

10 public void unlock() { 

11 state.set{false); 

12 } 

B } 











图 7-3 TTASLock 类 


从 正确 性 的 角度 来 看 ，TASLock 和 TTASLock 算 法 是 等 价 的 : 每 一 个 算法 都 保证 了 无 死 锁 的 
互 斥 。 在 目前 所 使 用 的 简单 模型 中 ， 这 两 种 算法 之 间 应 该 没有 什么 不 同 。 
在 实际 的 多 处 理 器 上 进行 比较 将 会 有 怎样 的 
结果 呢 ? 图 7-4 是 "个 线程 固定 地 执行 一 段 临界 区 
所 需 时 间 的 实测 结果 。 每 个 数据 点 代表 着 相同 的 TASLock 
工作 量 ， 在 没有 争 用 影响 的 情形 下 ， 整 个 曲线 将 i 
是 平 直 的 。 最 上 面 是 TASLock 的 曲线 ， 中 间 是 








TTASLock 的 曲线 ， 最 下 面 的 曲线 表示 线程 在 没有 È 1 

干扰 的 情况 下 所 需 的 时 间 。 显 然 ， 三 者 之 间 的 关 PoP 

异 非常 显著 : TASLock 的 性 能 最 差 ，TTASLock 的 性 i! 

能 则 要 好 一 些 ， 但 与 理想 情形 仍然 相距 其 远 。 = doalLock 
可 以 用 现代 多 处 理 器 系统 结构 来 解释 这 些 关 ie 


异 。 首 先 ， 要 注意 现代 多 处 理 器 中 包含 多 种 形式 
的 系统 结构 ， 因 此 不 能 过 于 抽象 概括 。 但 是 ， 几 
乎 所 有 的 现代 系统 结构 都 存在 着 高 速 缓存 和 局 部 
性 的 问题 。 虽 然 在 细节 上 有 所 不 同 ， 但 其 原理 却 是 相同 的 。 

为 简单 起 见 ， 考 虑 一 种 典型 的 多 处 理 器 系统 结构 ， 其 中 处 理 器 之 间 是 通过 一 种 称 为 总 线 
(类 似 一 个 微型 以 太 网 ) 的 共享 广播 媒介 进行 通信 的 。 处 理 器 和 存储 控制 器 都 可 以 在 总 线 上 广 
播 ， 但 在 一 个 时 刻 只 能 有 一 个 处 理 器 (或 存储 控制 器 ) 在 总 线 上 广播 。 所 有 的 处 理 器 (存储 
控制 器 ) 都 可 以 监听 。 尽 管 基于 总 线 的 系统 结构 在 处 理 器 数量 很 多 的 情形 下 可 扩展 性 很 差 ， 
但 这 种 系统 结构 在 今天 非常 普遍 ， 其 原因 在 于 它们 易于 构建 。 

每 个 处 理 器 都 有 一 个 cache， 它 是 一 种 高 速 的 小 容量 存储 器 ， 用 来 存放 处 理 器 感 兴趣 的 数 
据 。 对 内 存 的 访问 通常 要 比 对 cache 的 访问 多 出 几 个 数量 级 的 机 器 周期 。 目 前 技术 的 发 展 对 此 
问题 的 解决 效果 并 不 理想 : 内 存 访问 时 间 在 近期 内 不 太 可 能 赶 上 处 理 器 的 时 间 周 期 ， 因 此 
cache 的 性 能 对 于 多 处 理 器 系统 结构 的 整体 性 能 具有 至 关 重 要 的 影响 。 


图 7-4 n 个 线程 固定 地 执行 一 段 
临界 区 所 需 的 时 间 
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当 处 理 器 从 内 存 地 址 中 读数 据 时 ， 首 先 检查 该 地 址 及 其 所 存储 的 数据 是 否 已 在 它 的 cache 
中 。 如 果 在 cache 中 ， 那 么 处 理 器 产生 一 个 cache 命 中 ， 并 可 以 立即 加 载 这 个 值 。 如 果 不 在 ， 则 
产生 一 个 cache 缺 失 ， 且 必须 在 内 存 或 另 一 个 处 理 器 的 cache 中 查找 这 个 数据 。 接 着 ， 处 理 器 在 
总 线 上 广播 这 个 地 址 。 其 他 的 处 理 器 监听 总 线 。 如 果 某 个 处 理 器 在 自己 的 cache 中 发 现 这 个 地 
址 ， 则 广播 该 地 址 及 其 值 来 做 出 响应 。 如 果 所 有 处 理 器 中 都 没有 发 现 此 地 址 ， 则 以 内 存 中 该 
地 址 所 对 应 的 值 来 进行 响应 。 


7.3 再 论 基 于 TAS 的 自 旋 锁 


首先 分 析 在 共享 总 线 系统 结构 中 TTASLock 算 法 是 怎样 执行 的 。 每 个 getAndSet( ) 调 用 实 
质 上 是 总 线 上 的 一 个 广播 。 由 于 所 有 线程 都 必须 通过 总 线 和 内 存 进行 通信 ， 所 以 getAndSet() 
调用 将 会 延迟 所 有 的 线程 ， 包 括 那 些 没有 等 待 锁 的 线程 。 更 为 糟糕 的 是 ，getAndSet( ) 调 用 能 
够 迫使 其 他 的 处 理 器 丢弃 它们 自己 cache 中 的 锁 副本 ， 这 样 每 一 个 正在 自 旋 的 线程 几 平 每 次 都 
会 遇 到 一 个 cache 缺 失 ， 并 且 必 须 通 过 总 线 来 获取 新 的 没有 被 修改 的 值 。 而 比 这 更 为 糟糕 的 是 ， 
当 持 有 锁 的 线程 试图 释放 锁 时 ， 由 于 总 线 被 正在 自 旋 的 线程 所 独占 ， 该 线程 有 可 能 会 被 延迟 。 
现在 可 以 理解 为 什么 TASLock 的 性 能 如 此 之 差 。 

下 面 分 析 当 锁 被 线程 A4 持 有 时 TTASLock 算 法 的 执行 行为 。 线 程 B 第 一 次 读 锁 时 发 生 cache 缺 
失 ， 从 而 阻塞 等 待 值 被 载 入 它 的 cache 中 。 只 要 A 持 有 锁 ，B 就 不 断 地 重读 该 值 ， 且 每 次 都 命中 
cache。 这 样 ，B 不 产生 总 线 流量 ,而且 也 不 会 降低 其 他 线程 的 内 存 访问 速度 。 此 外 ， 释 放 锁 
的 线程 也 不 会 被 正在 该 锁 上 旋转 的 线程 所 延迟 。 

然而 ， 当 锁 被 释放 时 情况 却 并 不 理想 。 锁 的 持 有 者 将 false 值 写 入 锁 变量 来 释放 锁 ， 该 操作 将 
会 使 自 旋 线 程 的 cache 副 本 立刻 失效 。 每 个 线程 都 将 发 生 一 次 cache 缺 失 并 重读 新 值 ， 它 们 都 UL 
平 是 同时 ) 调用 getAndSet () 以 获取 锁 。 第 一 个 成 功 的 线程 将 使 其 他 线程 失效 ， 这 些 失效 线程 接 
下 来 又 重读 那个 值 ， 从 而 引起 一 场 总 线 流 量 风暴 。 最 终 ， 所 有 线程 再 次 平静 ， 进 入 本 地 旋转 。 

本 地 旋转 指 线程 反复 地 重读 被 缓存 的 值 而 不 是 反复 地 使 用 总 线 ， 这 个 概念 是 一 个 重要 的 
原则 ， 对 设计 高 效 的 自 旋 锁 非常 关键 。 


7.4 指数 后 退 


现在 邯 虑 如 何 改进 TTASLock 算 法 。 首 先 介绍 一 些 专业 术语 : 争 用 指 多 个 线程 试图 同时 获 
取 一 个 锁 ， 高 争 用 则 意味 着 存在 大 量 正在 争 用 的 线程 ， 低 争 用 的 意思 与 高 争 用 相反 。 

在 TTASLock 类 中 ，1ock( ) 方 法 使 用 了 两 个 步骤 : 它 不 断 地 读 锁 ， 当 锁 看 似 空闲 时 ， 则 调 
用 getAndSet(tirxe) 来 获取 锁 。 下 面 是 一 个 重要 的 结论 : 如 果 其 他 的 某 个 线程 在 第 一 步 和 第 二 步 
之 间 获 得 了 锁 ， 那 么 该 锁 极 有 可 能 存在 高 争 用 。 显 然 ， 试 图 获得 一 个 存在 高 争 用 的 锁 是 一 种 应 
该 回避 的 情形 。 此 时 线程 获得 锁 的 机 会 非常 小 ， 因 此 这 种 尝试 将 会 导致 总 线 流 量 的 增加 (导致 
流量 拥塞 )。 相 反 ， 若 让 线程 后 退 一 段 时 间 ， 给 正在 竞争 的 线程 以 结束 的 机 会 ， 将 会 更 加 有 效 。 

线程 在 重 试 之 前 应 该 后 退 多 久 呢 ? 一 种 好 的 准则 就 是 不 成 功 尝 试 的 次 数 越 多 ， 发 生 和 争 用 
的 可 能 性 就 越 高 ， 线 程 需要 后 退 的 时 间 就 应 越 长 。 下 面 是 一 种 简单 的 方法 。 每 当 线程 发 现 锁 
变 为 空闲 但 却 无 法 获得 它 时 ， 就 在 重 试 之 前 后 退 。 为 了 确保 发 生 冲 突 的 并 发 线程 不 进入 锁 步 ， 
即 在 同一 时 刻 所 有 线程 都 试图 获得 锁 ， 该 线程 应 随机 地 后 退 一 段 时 间 。 每 当 线程 试图 获得 一 
个 锁 但 又 失败 以 后 ， 则 将 后 退 时 间 加 倍 ， 直 到 一 个 固定 的 最 大 值 maxDe1lay 为 止 。 
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对 于 一 些 锁 算法 来 说 后 退 是 一 种 常用 的 方法 ， 因 此 我 们 将 这 种 逻辑 封装 到 一 个 简单 的 
Backoff 类 中 ， 如 图 7-5 所 示 。 在 构造 函数 中 使 用 了 下 面 这 些 参数 : minDelay 是 最 小 的 初始 时 
延 (线程 后 退 一 段 太 短 的 时 间 是 没有 意义 的 )，maxDelay 是 最 终 的 最 大 时 延 (为 了 避免 不 幸 的 
线程 后 退 太 长 的 时 间 ， 最 终 的 限制 是 必需 的 )。1imit 域 则 控制 着 当前 的 时 延 限制 。backoff() 
方法 在 0 和 当前 限制 之 间 选 择 一 个 随机 的 时 延 ， 在 返回 之 前 以 这 个 时 延 来 阻塞 线程 。 下 一 次 后 
退 时 把 这 个 限制 加 倍 ， 直 到 maxDelay 为 止 。 





1 public class Backoff { 

2 final int minDelay, maxDelay; 

3 int limit; 

4 final Random random; 

5 public Backoff(int min, int max) { 
6 minDelay = min; 

7 maxDelay = max; 

8 limit = minDelay; 


9 random = new Random(); 

10 } 

11 public void backoff() throws InterruptedException { 
12 int delay = random.nextInt(limit); 

13 limit = Math.min(maxDelay, 2 * limit); 

14 Thread.sleep(delay) ; 

15 } 

16 } 








图 7-5 Backoff 类 ， 自 适应 的 后 退 逻 辑 。 为 保证 争 用 的 并 发 线程 在 同一 时 刻 不 会 反复 地 党 
试 获得 锁 ， 让 线程 后 退 一 个 随机 的 时 间 间 隔 。 每 次 线程 尝试 得 到 一 个 锁 并 失败 后 ， 
就 把 期 望 的 后 退 时 间 加 倍 ， 直 到 到 达 一 个 固定 的 最 大 值 


图 7-6 描 述 了 BackoffLock 类 。 该 类 使 用 了 Backoff 对 象 ， 该 对 象 的 最 大 和 最 小 后 退 时 间 存 
于 常量 minDelay 和 maxDelay 中 。 关 键 要 注意 ， 只 有 当 线 程 发 现 一 个 锁 为 空闲 且 不 能 立即 获得 
该 锁 时 才 会 后 退 。 观 测 到 锁 被 另 一 个 线程 所 持 有 并 不 能 够 说 明和 争 用 的 程度 。 





public class BackoffLock implements Lock { 
private AtomicBoolean state = new AtomicBoolean(false) ; 





1 

2 

3 private static final int MIN DELAY = ...; 
4 private static final int MAX DELAY = ...; 
5 public void lock{) { 

6 Backoff backoff = new Backoff(MIN DELAY, MAX DELAY); 
7 while (true) { 

8 while (state.get()) {}; 

9 if (istate.getAndSet(true)) { 

10 return; 

11 } else { 

12 backoff .backoff(); 

13 } 

14 } 

15 } 

16 public void unlock() { 

17 state.set (false); 

18 } 

19 
20 } 





图 7-6 指数 后 退 锁 。 每 当 线程 未 能 获得 已 空 采 的 锁 时 ， 就 在 重 试 之 前 后 退 
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BackoffLock 易 于 实现 ， 且 在 许多 系统 结构 中 其 性 能 要 比 TASLock 好 得 多 。 然 而 ， 它 的 性 
能 与 常量 minDelay 和 maxDe1ay 的 选取 密切 相关 。 为 了 在 一 个 特定 的 系统 结构 中 部 署 该 锁 ， 要 
对 不 同 的 值 进行 测试 ， 选 择 性 能 最 好 的 值 。 实 验 表明 ， 最 优 值 与 处 理 器 的 个 数 以 及 它们 的 速 
度 密切 相关 ， 因 此 ， 很 难 调整 BackoffLock 类 以 使 它 与 各 种 不 同 的 机 器 相互 兼容 。 


7.5 队列 锁 


下 面 给 出 另 一 种 实现 可 扩展 自 旋 锁 的 方法 ， 这 种 实现 比 后 退 锁 稍 复杂 一 些 ， 但 却 具有 更 
好 的 可 移植 性 。 在 BackoffLock 算 法 中 有 两 个 问题 。 

。cache 一 致 性 流量 : 所 有 线程 都 在 同一 个 共享 存储 单元 上 旋转 ， 每 一 次 成 功 的 锁 访问 都 

会 产生 cache 一 致 性 流量 (尽管 比 TASLock 低 ) 。 

RRA ARR: 线程 延迟 过 长 ， 导 致 临界 区 利用 率 低下 。 

可 以 将 线程 组 织 成 一 个 队列 来 克服 这 些 缺 点 。 在 队列 中 ， 每 个 线程 检测 其 前 驱 线 程 是 否 已 
完成 来 判断 是 否 轮 到 它 自 己 。 让 每 个 线程 在 不 同 的 存储 单元 上 旋转 ， 从 而 降低 cache 一 致 性 流量 。 
队列 还 提高 了 临界 区 的 利用 率 ， 因 为 没有 必要 去 判断 何 时 要 访问 它 : 每 个 线程 直接 由 队列 中 的 
前 驱 线 程 来 通知 。 最 后 ， 队 列 提供 先 来 先 服务 的 公平 性 ， 可 获得 与 Bakery 算 法 同样 的 高 级 别 公 
平 性 。 下 面 探讨 关于 队列 锁 的 各 种 不 同 的 实现 方法 ， 它 们 都 是 基于 上 述 队 列 观点 的 锁 算 法 。 


7.5.1 基于 数组 的 锁 
图 7-7 和 图 7-8 描 述 了 一 种 基于 数组 的 简单 队列 锁 ALockeS。AtomicInteger 的 tail 域 被 所 








1 public class ALock implements Lock { 
2 ThreadLocal<Integer> mySlotindex = new ThreadLocal<Integer> () { 
3 protected Integer initialValue() { 
4 return 0; 

5 } 

6 hs 

2 Atomicinteger tail; 

8 volatile boolean[] flag; 

9 int size; 

10 public ALock(int capacity) { 

ll size = capacity; 

12 tail = new AtomicInteger(0); 

13 flag = new boolean[capacity]; 

14 flag[0] = true; 

15 } 

16 public void lock() { 

17 int slot = tail.getAndIncrement() % size; 
18 mySlotIndex.set(slot); 

19 while (! flag[slot]) {}; 
20 } 
21 public void unlock() { 

22 int slot = mySlotIndex.get(); 

23 flag[slot] = false; 

24 flag[(slot + 1) % size] = true; 

25 } 

26 } 





图 7-7 基于 数组 的 队列 锁 





日 ”大 多 数 锁 类 都 以 其 发 明 者 名 字 的 首 字母 命名 ， 详 见 7.10 节 解释 。 
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有 的 线程 所 共享 ， 其 初始 值 为 0。 为 了 获得 锁 ， 每 个 线程 原子 地 增加 tai1 域 (第 17 行 )。 所 得 
的 结果 值 称 为 线程 的 模 。 权 则 被 当 作 布尔 数组 f1ag 的 索引 。 如 果 f1lag[ 四 为 true， 那 么 槽 为 的 
线程 有 权 获 得 锁 。 在 初始 状态 时 ，f1ag[0] 为 true。 为 了 获取 锁 ， 线 程 不 断 地 旋转 直到 它 的 覃 
所 对 应 的 f1ag 变 为 true (第 19 行 )。 而 在 释放 锁 时 ， 线 程 把 对 应 于 它 自 己 槽 的 f1ag 设 为 false 
(第 23 行 )， 并 将 下 一 个 槽 的 fl1ag 设 为 true (第 24 行 )。 所 有 的 算术 运算 都 对 n 进 行 求 模 ， 其 中 
至 少 应 与 最 大 的 并 发 线程 数 相同 。 


cache 











mySlot mySlot mySlot 


线程 C 线程 B 线程 A 
(将 得 到 槽 4) (旋转 ) (在 临界 区 中 ) 





a) 


cache 











mySiot mySlot mySlot 
线程 C 线程 B 线程 A 
(将 得 到 槽 16) etk) ”在 临界 区 中 ) 
b) 


图 7-8 使 用 填补 以 避免 出 现 假 共享 的 ALock。 在 a 中 ，ALock 有 8 个 模 ， 通 过 一 个 模 8 的 计数 
器 来 访问 。 数 组 项 通常 被 连续 地 映射 到 cache 线 中 。 可 以 看 出 当 线程 4 改变 其 数组 项 
的 状态 时 ， 其 数组 项 被 映射 到 同一 个 cache 线 k 内 的 线程 8 将 会 产生 一 个 假 无 效 。 在 b 
中 ， 每 个 存储 单元 被 填补 了 ， 因 此 它 采 用 一 个 模 32 的 计数 器 与 其 他 的 4 字 线 区 分 开 。 
即使 数组 项 被 连续 地 上 映射，B 的 数组 项 也 被 映射 到 与 4 的 数组 项 不 同 的 cache 线 中 。 
这 样 ， 若 4 使 它 的 数组 项 无 效 ， 并 不 会 导致 8 也 无 效 
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在 ALock 算 法 中 ，myS1lotIndex 是 线程 的 局 部 变量 ( 见 附录 A)。 线 程 的 局 部 变量 与 线程 的 
常规 变量 不 同 ， 对 于 每 个 局 部 变量 ， 线 程 都 有 它 自己 独立 初始 化 的 副本 。 局 部 变量 不 需要 保 
存在 共享 存储 器 中 ， 不 需要 同步 ， 也 不 会 产生 任何 一 致 性 流量 ， 因 为 它们 只 能 被 一 个 线程 访 
问 。 通 常 使 用 get() 和 set( ) 方 法 来 访问 局 部 变量 的 值 。 

数组 f1ag[] 是 被 多 个 线程 所 共享 的 。 但 在 任意 给 定 的 时 间 ， 由 于 每 个 线程 都 是 在 一 个 数组 
存储 单元 的 本 地 cache 副 本 上 旋转 ， 大 大 降低 了 无 效 流量 ， 从 而 使 得 对 数组 存储 单元 的 争 用 达 
到 最 小 。 

要 注意 和 争 用 仍 有 可 能 发 生 ， 其 原因 在 于 存在 着 一 种 称 为 假 共享 的 现象 ， 当 相 邻 的 数据 项 
(如 数组 元 素 ) 共享 单一 cache 线 时 会 发 生 这 种 现象 。 对 一 个 数据 项 的 写 将 会 使 该 数据 项 的 
cache 线 无 效 ， 对 于 那些 恰好 进入 同一 个 cache 线 的 未 改变 但 很 接近 的 数据 项 来 说 ， 这 种 写 将 会 
引起 正在 这 些 数 据 上 进行 旋转 的 处 理 器 的 无 效 流量 。 在 图 7-8 的 例子 中 ， 访 问 8 个 ALock 存 储 单 
元 的 线程 有 可 能 遇 到 不 必要 的 无 效 ， 因 为 这 些 存储 单元 已 被 缓存 到 两 个 同样 的 4 字 线 中 。 避 免 
假 共享 的 一 种 方法 就 是 填补 数组 元 素 ， 以 使 不 同 的 元 素 被 映射 到 不 同 的 cache 线 中 。 在 类 似 于 
C 或 者 C++ 的 低级 语言 中 填补 是 很 容易 实现 的 ， 在 这 些 语言 中 程序 员 可 以 直接 控制 对 象 在 存储 
器 中 的 布局 。 在 图 7-8 的 例子 中 ， 可 以 通过 将 锁 数 组 的 大 小 增加 为 原来 的 4 倍 ， 并 以 4 个 字 来 隔 
开 存 放 存 储 单元 以 使 得 两 个 存储 单元 不 会 落 在 同一 个 cache 线 中 ， 来 填补 最 初 的 8 个 ALock 存 储 
单元 。( 通 过 计算 4(it1) mod 32 而 不 是 寺 1 mod 8 来 从 单元 i 增加 到 下 一 个 单元 。) 


7.5.2 CLH 队 列 锁 


ALock 是 对 BackoffLock 的 改进 ， 因 为 它 将 无 效 性 降 到 最 低 并 把 一 个 线程 释放 锁 和 另 一 个 
线程 获得 该 锁 之 间 的 时 间 间 隔 最 小 化 。 与 TASLock 和 BackoffLock 不 同 ， 该 算法 能 够 确保 无 饥 
饿 性 ， 同 时 也 保证 了 先 来 先 服务 的 公平 性 。 

然而 ，ALock 锁 并 不 是 空间 有 效 的 。 它 要 求 并 发 线程 的 最 大 个 数 为 一 个 已 知 的 界限 n， 同 
时 为 每 个 锁 分 配 一 个 与 该 界限 大 小 相同 的 数组 。 因 此 ， 即 使 一 个 线程 每 次 只 访问 一 个 锁 ， 同 
步 L 个 不 同 对 象 也 需要 O(Ln) 大 小 的 空间 。 

现在 来 分 析 另 一 种 不 同类 型 的 队列 锁 。 图 7-9 描 述 了 CLHLock 类 的 域 、 构 造 国 数 及 QNode 类 。 


public class CLHLock implements Lock { 
AtomicReference<Qnode> tail; 











1 

2 

3 ThreadLocal<QNode> myPred; 

4 ThreadLocal<QNode> myNode; 

5 public CLHLock() { 

6 tail = new AtomicReference<QNode>(null); 
7 myNode = new ThreadLocal<QNode>() { 
8 protected QNode initialValue() { 
9 return new QNode(); 

10 } 

11 Js 

12 myPred = new ThreadLocal<QNode>() { 
13 protected QNode initialValue() { 
14 return null; 

15 } 

16 } 

17 } 

18 

19 } 











图 7-9 CLHLock 类 ， 域 和 构造 函数 
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该 类 在 QNode 对 象 的 布尔 型 1ocked 域 中 记录 了 每 个 线程 的 状态 。 如 果 该 域 为 rue， 则 相应 的 线 
程 要 么 已 经 获得 锁 ， 要 么 正在 等 待 锁 ， 如 果 该 域 为 jatse， 则 相应 的 线程 已 经 释放 了 锁 。 锁 本 
身 被 表示 为 QNode 对 象 的 虚拟 链表 。 之 所 以 使 用 术语 “虚拟 ”是 因为 链表 是 隐 式 的 : 每 个 线程 
通过 一 个 线程 局 部 变量 pred 指 向 其 前 驱 。 公 共 的 tai1 域 对 于 最 近 加 入 到 队列 的 结 点 来 说 是 一 


个 AtomicReference<QNodey> 。 








20 public void lock() { 

21 QNode qnode = myNode.get(); 
22 qnode. locked = true; 

23 QNode pred = tail.getAndSet(qnode); 
24 myPred.set (pred) ; 

25 while (pred.locked) {} 

26 } 

27 public void unlock() { 

28 QNode qnode = myNode.get(); 
29 qnode.locked = false; 

30 myNode.set (myPred.get()}); 
31 } 

32} 








图 7-10 CLHLock 类 ， 1ock() 和 un1ock( ) 方 法 


如 图 7-10 所 示 ， 若 要 获得 锁 ， 线 程 将 其 QNode 的 10ocked 域 设 为 true， 表 示 该 线程 不 准备 释 
放 锁 。 随 后 线程 对 tai1 域 调用 getAndSet() 方 法 ,使 它 自己 的 结 点 成 为 队列 的 尾部 ， 同 时 获 
得 一 个 指向 其 前 驱 QNode 的 引用 。 最 后 线程 在 其 前 驱 的 10cked 域 上 旋转 ， 直 到 前 驱 释 放 该 锁 。 
若 要 释放 锁 ， 线 程 将 其 1ocked 域 设 为 名 lse。 然 后 重新 使 其 前 驱 的 QNode 作 为 新 结 点 以 便 将 来 的 
锁 访 问 。 之 所 以 能 这 样 做 是 因为 该 线程 的 前 驱 此 刻 不 再 使 用 它 的 QNode ， 而 且 线程 的 老 的 QNode 
既 可 以 被 它 的 后 继 也 可 以 由 tail 所 引用 。 虽 然 在 本 例 中 没有 这 么 做 ,但 回收 结 点 是 可 行 的 ， 
这 样 的 话 ， 如 果 有 Z 个 锁 ， 且 每 个 线程 每 次 最 多 访问 一 个 锁 ， 那 么 与 ALock 类 需要 O(Lm) 的 空间 
相 比 ，CLHLock 类 只 需要 O(L+n) 的 空间 。 图 7-11 描 述 了 CLHLock 的 一 次 典型 的 执行 过 程 。 

与 ALock 一 样 ， 该 算法 让 每 个 线程 在 不 同 的 存储 单元 上 旋转 ， 这 样 当 一 个 线程 释放 它 的 锁 
时 ， 只 能 使 其 后 继 的 cache 无 效 。 该 算法 比 ALock 类 所 需 的 空间 少 ， 且 不 需要 知道 可 能 使 用 锁 
的 线程 的 数量 。 该 算法 和 ALock 类 一 样 ， 也 提供 了 先 来 先 服务 的 公平 性 。 

也 许 这 种 锁 算法 的 唯一 缺点 就 是 它 在 无 cache 的 NUMA 系 统 结构 下 性 能 很 差 。 每 个 线程 都 
自 旋 等 待 其 前 驱 结 点 的 1ocked 域 变 为 jolse。 如 果 内 存 位 置 较 远 ， 那 么 性 能 将 会 受到 损失 。 然 
而 ， 在 cache 一 致 性 的 系统 结构 上 ， 该 方法 非常 有 效 。 


7.5.3 MCS 队 列 锁 


图 7-12 描 述 了 MCSLock 类 的 域 和 构造 函数 。 该 类 的 锁 也 被 表示 为 QNode 对 象 的 链表 ， 其 中 
的 每 个 QNode 要 么 表示 一 个 锁 持 有 者 ， 要 么 表示 一 个 正在 等 待 获得 锁 的 线程 。 与 CLHLock 类 不 
同 ， 锁 链表 是 显 式 的 而 不 是 虚拟 的 ， 整个 链表 通过 QNode 对 象 里 的 next 域 (全 局 可 访问 的 ) 所 
体现 ， 而 并 非 由 线程 的 局 部 变量 所 体现 。 





O ”在 类 似 于 Java 和 C# 这 些 具有 垃圾 回收 功能 的 语言 里 ， 不 必 为 了 保证 正确 性 而 重用 结 点 ， 但 在 C++ 或 C 等 语 
言 里 重用 是 必需 的 。 
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tail tail 
` [2] tail.getAndSet() 
初始 A:lock() Sere 
a) myNode myPred 
线程 4 
tail b) 





eg 
A:unlock() 
Bslock() _ 
w myNode = myPred 


myNode myPred myNode myPred 
线程 B 线程 A 
c) 
图 7-11 CLHLock 类 : 锁 的 获取 和 有 释放。 初始 时 tail 域 指向 QNode ， 其 1ocked 域 为 false。 然 
后 线程 A 对 tai1 域 调用 getAndSet()， 把 它 的 QNode 插 入 到 队列 尾部 ， 同 时 获取 一 
个 指向 其 前 驱 的 QNode 的 引用 。 接 下 来 ，B 同 样 把 它 的 QNode 插 入 队列 尾部 。A 接 着 
将 其 结 点 的 10cked 域 设置 为 false 来 释放 锁 。 然 后 回收 由 pred 指 向 的 QNode ， 以 便 
今后 的 锁 访 问 








1 public class MCSLock implements Lock { = ai 
2 AtomicReference<QNode> tail; 

3 ThreadLocal<QNode> myNode; 

4 public MCSLock() { 

5 tail = new AtomicReference<QNode> (null); 
6 myNode = new ThreadLocal<QNode>() { 

7 protected QNode initialValue() { 

8 return new QNode(); 

9 } 
10 E 
11 } 


13 class QNode { 

14 boolean locked = false; 
15 QNode next = null; 

16 } 

17 } 








图 7-12 MCSLock3&, 域 、 构 造 函 数 和 QNode 类 


图 7-13 描 述 了 MCSLock 类 的 1ock( ) 和 un1lock() 方 法 。 若 要 获得 锁 ， 线 程 把 它 自己 的 QNode 
添加 到 链表 的 尾部 (第 20 行 )。 如 果 队 列 原先 不 为 空 ， 则 将 前 驱 QNode 的 next 域 设置 为 指向 它 
自己 的 QNode 。 然 后 在 它 自己 的 QNode 的 (局 部 ) 1ocked 域 上 自 旋 等 待 ， 直 到 其 前 驱 将 该 域 设 
AfalseAik (第 21 ~26 行 )。 

unlock() 方 法 检查 结 点 的 next 域 是 否 为 空 (第 30 行 )。 如 果 是 ， 则 要 么 不 存在 其 他 线程 正 
在 争 用 这 个 锁 ， 要 么 存在 一 个 正在 争 用 的 线程 ， 但 该 线程 运行 得 很 慢 。 令 4 是 该 线程 的 当前 结 
点 。 为 了 区 分 这 种 情况 ， 对 tai1 域 调用 方法 compareAndSet(g,nul1)。 如 果 调 用 成 功 ， 则 没有 
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其 他 线程 正在 试图 获得 锁 ， 将 tai1 域 置 为 aull 并 返回 。 否则， 说 明 有 另 一 个 ( 较 慢 的 ) 线程 试 
图 获得 锁 ， 于 是 该 方法 自 旋 以 等 待 它 结 束 (第 34 行 )。 在 任 一 种 情形 下 ， 一 旦 出 现 了 后 继 ， 
unlock() 方 法 则 将 它 的 后 继 的 10cked 域 设置 为 false， 表 明 目 前 锁 是 空闲 的 。 此 时 ， 其 他 的 线 





程 不 能 访问 这 个 QNode ， 所 以 该 对 象 可 以 被 重用 。 图 7-14 描 述 了 MCSLock 的 执行 实例 。 
上 


18 
19 
20 
21 
22 
23 
24 
25 
26 
27 
28 
29 
30 
31 
32 
33 
34 
35 
36 
37 
38 





public void lock() { 
QNode qnode = myNode.get(); 
QNode pred = tail.getAndSet (qnode) ; 
if (pred != null) { 
qnode.locked = true; 
pred.next = qnode; 
// wait until predecessor gives up the lock 
while (qnode.locked) {} 
} 
} 
public void unlock() { 
QNode qnode = myNode.get(); 
if (qnode.next == null) { 
if (tail.compareAndSet(qnode, nul1)) 
return; 
// wait until successor fills in the next field 
while (qnode.next == null) {} 


qnode.next.locked = false; 
qnode.next = null; 


| | 





图 7-13 MCSLock 类 : 1ock() 和 unlock() 方 法 


tail 





tail.getAndSet() 
A:lock() false 





mi 
a) myNode 
线程 4 
tail b) 
= 3 
B:lock() | true A:unlock() C J true 


C:lock() 








myNode myNode myNode myNode myNode myNode 
线程 C 线程 B 线程 4 线程 C ”线程 B 线程 A 
c) d) 


图 7-14 MCSLock 的 锁 获 取 和 锁 释 放 。a) tail 初 始 化 为 aul1，b) 若 要 获得 锁 ， 线 程 4 把 它 自 
己 的 QNode 加 入 链表 的 尾部 ， 由 于 该 结 点 没有 前 驱 ， 从 而 可 以 进入 临界 区 ，c) 线 
程 8 把 它 自己 的 QNode 放 在 链表 的 尾部 ， 修 改 其 前 驱 的 QNode 指 向 它 自己 。 随 后 线 
程 8 在 它 的 10cked 域 上 自 旋 ， 直 到 它 的 前 驱 A 把 这 个 域 从 true 改 为 false。 线 程 C 重 
复 这 个 过 程 ，d) 若 要 释放 锁 ，A 顺 着 它 的 next 域 找到 它 的 后 继 B 并 把 B 的 10cked 域 
设置 为 false。 现 在 可 以 重用 它 的 QNode 了 
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该 锁具 有 CLHL1ock 的 优点 ， 特 别 是 每 个 锁 释 放 仅 能 使 其 后 继 的 cache 项 无 效 。 这 种 算法 更 
适 于 无 cache 的 NUMA 系 统 结构 ， 因 为 是 由 每 个 线程 来 控制 它 所 自 旋 的 存储 单元 的 。 如 同 
CLHLock 一 样 ， 结 点 能 被 重复 使 用 。 因 此 ， 该 锁 的 空间 复杂 度 为 O(L+n)。MCSLock 算 法 的 一 个 缺 
点 就 是 释放 锁 时 也 需要 旋转 ， 另 外 一 个 缺点 就 是 它 比 CLHLock 算 法 的 读 、 写 和 compareAndSet ( ) 
调用 次 数 多 。 


7.6 时 限 队列 锁 


Java 的 Lock 接 口中 包含 一 个 tryLock( ) 方 法 ， 该 方法 允许 调用 者 指定 一 个 时 限 : 调用 者 为 
获得 锁 而 准备 等 待 的 最 大 时 间 。 如 果 在 调用 者 获得 锁 之 前 超时 ， 调 用 者 则 放弃 获得 锁 的 尝试 。 
该 方法 通过 一 个 布尔 型 的 返回 值 来 说 明 锁 的 申请 是 否 成 功 。( 在 第 8 章 的 编程 提示 8.2.3 中 解释 
了 为 什么 这 种 方法 会 抛 出 InterruptedException 异 常 。) 

由 于 线程 能 够 非常 简单 地 从 tryLock( ) 调 用 返回 ， 所 以 放弃 一 个 BackoffLock 请 求 是 很 容 
易 的 。 超 时 无 需 等 待 ， 只 要 求 固定 的 操作 步骤 。 与 此 相反 ， 若 对 任意 的 队列 锁 算法 都 进行 
时 控制 却 并 非 易 事 : 如 果 一 个 线程 简单 地 返回 ， 那 么 排 在 它 后 面 的 线程 将 会 钱 死 。 

下 面 是 一 幅 时 限 队 列 锁 的 乌 欧 图 。 就 像 CLHLock 一 样 ， 锁 是 一 个 结 点 的 虚拟 队列 ， 每 个 线 
程 在 它 的 前 驱 结 点 上 自 旋 ， 等 待 锁 被 释放 。 正 如 前 面 所 提 到 的 ， 若 一 个 线程 超时 ， 则 该 线程 
不 能 简单 地 抛弃 它 的 队列 结 点 ， 因 为 当 锁 被 释放 时 ， 该 线程 的 后 继 无 法 注意 到 这 种 情形 。 另 
一 方面 ， 让 一 个 队列 结 点 从 链表 中 删除 而 并 不 扰乱 并 发 锁 的 释放 似乎 是 相当 困难 的 。 因 此 ， 
可 以 使 用 情 性 方法 : 若 一 个 线程 超时 ， 则 该 线程 将 它 的 结 点 标记 为 已 放弃 。 这 样 该 线程 在 队 
列 中 的 后 继 (如 果 有 ) 将 会 注意 到 它 正 在 自 旋 的 结 点 已 经 被 放弃 ， 于 是 开始 在 被 放弃 结 点 的 
前 驱 上 自 旋 。 这 种 方法 有 一 个 额外 的 好 处 : 后 继 线程 能 重用 被 放弃 的 结 点 。 

图 7-15 描 述 了 TO0Lock 类 (时 限 锁 ) 的 域 、 构 造 国 数 以 及 QNode 类 。T0Lock 是 一 个 基于 
CLHLock 类 的 队列 锁 ， 它 支持 无 等 待 超时， 即使 对 于 结 点 链表 中 正在 等 待 锁 的 线程 也 是 如 此 。 





1 public class TOLock implements Lock{ 

2 static QNode AVAILABLE = new QNode(); 
3 AtomicReference<QNode> tail; 

4 ThreadLocal<QNode> myNode; 

5 public TOLock() { 

6 tail = new AtomicReference<QNode>(nulT) ; 
7 myNode = new ThreadLocal<QNode>() { 
8 protected QNode initialValue() { 
9 return new QNode(); 

10 } 

11 ks 

12 } 


14 static class QNode { 
15 public QNode pred = null; 
} 








17 } 





图 7-15 TOLock 类 : 域 、 构 造 函 数 及 QNode 类 


当 一 个 QNode 的 pred 域 为 zz 时， 该 结 点 所 对 应 的 线程 或 者 还 未 获得 锁 或 者 已 经 释放 了 锁 。 
当 一 个 QNode 的 pred 域 指向 一 个 可 判别 的 静态 QNode (AVAILABLE) 时 ， 其 相应 线程 已 经 释放 
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了 锁 。 如 果 pred 域 指向 其 他 的 某 个 QNode， 那 么 相应 的 线程 已 经 放弃 了 锁 请 求 ， 这 样 后 继 结 点 
的 线程 应 该 在 被 放弃 结 点 的 前 驱 上 等 待 。 

图 7-16 描 述 了 TOLock 类 的 tryLock( ) 和 un1lock() 方 法 。tryLock() 方 法 创建 一 个 pred 域 为 
空 的 新 QNode ， 它 像 CLHLock 类 一 样 (第 5 ~8 行 ) 把 该 结 点 加 入 到 链表 中 。 如 果 这 个 锁 是 空闲 
的 (第 9 行 )， 线 程 则 进入 临界 区 。 否 则 ， 线 程 自 旋 等 待 其 前 驱 QNode 的 pred 域 被 改变 (第 
12~19 行 )。 如 果 前 驱 线程 超时 ， 则 设置 pred 域 指向 其 前 驱 ， 并 在 新 的 前 驱 上 旋转 。 图 7-17 拭 
述 了 这 种 操作 序列 的 一 个 实例 。 最 后 ， 如 果 线 程 自己 超时 (第 20 行 )， 那 么 它 就 在 tai1 域 上 调 
用 compareAndSet( ) 来 尝试 从 链表 中 删除 它 的 QNode 。 如 果 compareAndSet( ) 调 用 失败 ， 说 明 
这 个 线程 有 后 继 ， 线 程 则 设置 它 的 QNode 的 pred 域 (原来 为 maz1) 指向 其 前 驱 的 QNode ， 表 明 
它 已 从 队列 中 放弃 。 





1 public boolean tryLock(long time, TimeUnit unit) 

2 throws InterruptedException { 

3 long startTime = System.currentTimeMillis(); 

4 long patience = TimeUnit.MILLISECONDS.convert(time, unit); 
5 QNode qnode = new QNode(); 

6 myNode. set (qnode); 

7 qnode.pred = null; 

8 QNode myPred = tail. getAndSet (qnode) ; 





9 if (myPred == null || myPred.pred == AVAILABLE) { 
10 return true; 

11 

12 while (System.currentTimeMillis() - startTime < patience) { 
13 QNode predPred = myPred.pred; 

14 if (predPred == AVAILABLE) { 

15 return true; 

16 } else if (predPred {= null) { 

17 myPred = predPred; 

18 } 

19 } 

20 if (!tail.compareAndSet(qnode, myPred)) 
21 qnode.pred = myPred; 

22 return false; 

23 

24 public void unlock() { 

25 QNode qnode = myNode.get(); 

26 if (!tail.compareAndSet(qnode, nu11)) 
27 qnode.pred = AVAILABLE; 

28 } 

29 } 





图 7-16 TOLock 类 : tryLock()#qunlock( ) 方 法 


feunlock( ) 方 法 中 ， 线 程 通过 使 用 compareAndSet() 来 检查 它 是 否 有 后 继 (第 26 行 )。 如 
RA, 则 设置 它 的 pred 域 为 AVAILABLE。 要 注意 在 这 个 时 刻 重 新 使 用 线程 的 老 结 点 是 很 危险 的 ， 
因为 该 结 点 有 可 能 被 它 的 直接 后 继 所 引用 ， 或 被 一 个 由 这 种 引用 所 组 成 的 链 所 引用 。 一 旦 线 
程 跳 过 超时 结 点 并 进入 临界 区 ， 那 么 这 个 链 中 的 结 点 就 可 以 被 回收 。 

T0Lock 具 有 CLHLock 的 大 多 数 优点 ; 在 缓存 的 存储 单元 上 进行 本 地 自 旋 以 及 对 锁 空 闲 的 快 
速 检测 。 它 也 具有 BackoffLock 的 无 等 待 超时 特性 。 然 而 ， 该 锁 也 存在 着 一 些 缺 点 ， 包 括 每 次 
锁 访 问 都 需要 分 配 一 个 新 结 点 以 及 在 锁 上 旋转 的 线程 在 它 访问 临界 区 之 前 有 可 能 不 得 不 回溯 
一 个 超时 结 点 链 。 
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myNode myPred myNode myPred myNode myPred 
线程 E 线程 D 线程 C 线程 B 线程 4 
图 7-17 为 获得 TOLock 而 必须 跳 过 的 超时 结 点 。 线 程 B 和 D 已 经 超时 ， 它 们 的 pred 域 重新 
指向 链表 中 它们 的 前 驱 。 线 程 C 发 现 B 的 域 指向 4， 所 以 开始 在 4 上 自 旋 。 类 似 地 ， 
线程 有 在 旋转 等 待 C。 当 4 执行 完 并 设置 它 的 pred 域 为 AVAILABLE 时 ，C 将 访问 临界 
区 并 在 离开 时 将 它 的 pred 域 设置 为 AVAILABLE ， 从 而 释放 EE 


7.7 复合 锁 


自 旋 锁 算法 采用 了 折 中 的 方案 。 队 列 锁 则 提供 了 先 来 先 服务 的 公平 性 、 快 速 锁 释放 以 及 
低 争 用 特性 ， 但 需要 非 平 凡 的 协议 来 重用 被 放弃 的 结 点 。 相 反 ， 后 退 锁 能 支持 平凡 的 超时 协 
议 , 但 其 本 身 是 不 可 扩展 的 ， 况 且 如 果 没 有 恰当 选 定 超时 参数 ， 锁 的 释放 则 有 可 能 很 慢 。 本 
节 考 虑 一 种 具有 上 述 两 种 方法 优点 的 高 级 锁 算 法 。 

考虑 下 面 通过 观察 所 得 的 结论 : 在 一 个 队列 锁 中 ， 只 有 位 于 队列 前 面 的 线程 需要 进行 锁 
切换 。 对 于 队列 锁 和 后 退 锁 的 一 种 平衡 方案 就 是 在 进入 临界 区 的 过 程 中 只 人 允许 在 队列 中 保持 
少量 的 等 待 线程 ， 若 剩 下 的 (ARE) 企图 进入 这 个 短 队 列 ， 则 采用 指数 后 退 的 方法 。 线 程 通 
过 后 退 来 中 止 是 很 平常 的 。 

CompositeLock 类 维护 一 个 短 的 固定 大 小 的 锁 结 点 数组 。 每 个 试图 获得 锁 的 线程 随机 地 在 
数组 中 选择 一 个 结 点 。 如 果 该 结 点 正在 使 用 ， 该 线程 则 向 后 后 退 ( 自 适 应 性 地 ) 并 再 次 尝试 。 
一 旦 线程 获得 一 个 结 点 ， 它 就 将 该 结 点 入 队 到 一 个 类 似 于 TOLock 的 队列 中 。 线 程 在 前 驱 结 点 上 
自 旋 ， 如 果 该 结 点 的 所 有 者 发 出 已 完成 的 信和 号， 线程 则 进入 临界 区 。 当 线程 离开 时 ,或 者 它 已 
完成 或 者 超时 ， 它 让 出 该 结 点 的 所 有 权 ， 从 而 使 男 一 个 后 退 线程 可 以 获得 该 结 点 。 这 个 过 程 中 
难处 理 的 部 分 就 是 当 有 多 个 线程 正在 试图 获得 结 点 的 控制 权时 ， 如 何 回收 数组 中 被 释放 的 结 点 。 

图 7-18 描 述 了 CompositeLock 的 域 、 构 造 函 数 和 un1ock( ) 方 法 。waiting 域 是 一 个 固定 大 
小 的 QNode 数 组 ，tail1 域 是 一 个 AtomicStampedReference<QNode>， 它 包含 一 个 对 队 尾 的 引用 
以 及 一 个 版 本 号 ,该 版 本 号 用 于 避免 在 更 新 操作 中 存在 的 ABA 问 题 (第 10 章 的 编程 提示 10.6.1 
详细 解释 了 AtomicStampedReference<T>， 第 11 章 对 ABA 问 题 进行 了 完整 的 讨论 8)。tail 域 
要 么 为 null 要 么 指向 最 近 被 插入 队列 的 结 点 。 图 7-19 描 述 了 QNode 类 。 每 个 QNode 包 含 一 个 
State 域 和 一 个 指向 队列 中 前 驱 结 点 的 引用 。 

QNode 有 四 种 可 能 的 状态 : WAITING、RELEASED、ABORTED 和 FREE。 状 态 为 WAITING 的 结 点 
被 链接 在 队列 中 ， 拥 有 该 结 点 的 线程 要 么 在 临界 区 内 要 么 正在 等 待 进入 临界 区 。 当 一 个 结 点 
的 所 有 者 准备 离开 临界 区 并 释放 锁 时 ， 该 结 点 变 为 RELEASED。 当 线程 要 放弃 获取 锁 的 尝试 时 ， 
则 处 于 其 他 两 个 状态 。 如 果 准 备 退 出 的 线程 已 获得 一 个 结 点 但 还 未 使 该 结 点 入 队 ， 则 被 标记 


日 ” 仅 在 无 垃圾 回收 的 语言 中 使 用 动态 存储 分 配 时 ，ABA 才 是 一 个 具有 代表 性 的 问题 。 之 所 以 在 这 里 提 到 它 ， 


是 因为 我 们 要 用 一 个 数组 来 实现 一 个 动态 链表 。 
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为 FREE。 如 果 结 点 已 人 队 ， 则 标记 为 ABORTED 。 
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public class CompositeLock implements Lock{ 
private static final int SIZE = ...; 
private static final int MIN BACKOFF : 
private static final int MAX_BACKOFF = ...; 
AtomicStampedReference<QNode> tail; 
QNode[] waiting; 
Random random; 
ThreadLocal<QNode> myNode = new ThreadLocal<QNode>() 
protected QNode initialValue() { return null; }; 
k 
public CompositeLock() { 
tail = new AtomicStampedReference<QNode>(null1,0); 
waiting = new QNode[SIZE]; 
for (int i = 0; i < waiting.length; i++) { 
waiting[i] = new QNode(); 
} 


random = new Random(); 


HO H 


~ 


public void unlock() { 
QNode acqNode = myNode.get(); 
acqNode.state.set (State.RELEASED) ; 
myNode.set (null); 

} 


e 











图 7-18 CompositeLock2é; ik, yi ee AeFMunlock( ) 方 法 


1 
2 
3 
4 
5 
6 
7 
8 





enum State {FREE, WAITING, RELEASED, ABORTED}; 
class QNode { 

AtomicReference<State> state; 

QNode pred; 

public QNode() { 

state = new AtomicReference<State>(State. FREE); 

} 

} 





图 7-19 CompositeLock#e; QNode 类 
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图 7-20 描 述 了 tryLock( ) 方 法 。 线 程 分 三 步 获得 锁 。 首 先 ， 它 获得 waiting 数 组 中 的 一 个 


结 点 (第 7 行 )， 接 着 让 该 结 点 入 队 (第 12 行 )， 最 后 等 待 直到 该 结 点 到 达 队 首 (第 9 行 )。 





1 
2 
3 
4 
5 
6 
v4 
8 
9 
10 
11 
12 
13 
14 





public boolean tryLock(long time, TimeUnit unit) 


} 


throws InterruptedException { 


long patience = TimeUnit.MILLISECONDS.convert(time, unit); 


long startTime = System.currentTimeMillis(); 
Backoff backoff = new Backoff(MIN BACKOFF, MAX_BACKOFF) ; 
try { 


QNode node = acquireQNode(backoff, startTime, patience); 


4 


QNode pred = spliceQNode(node, startTime, patience); 
waitForPredecessor(pred, node, startTime, patience); 
return true; 

} catch (TimeoutException e) { 
return false; 


} 





图 7-20 CompositeLock#; tryLock() 方 法 
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图 7-21 描 述 了 在 waiting 数 组 中 获得 一 个 结 点 的 算法 。 线 程 随机 地 选择 一 个 结 点 ， 并 把 该 
结 点 的 状态 从 FREE 变 为 WAITIN6 来 尝试 获得 该 结 点 (第 7 行 )。 如 果 失 败 ， 则 检查 结 点 的 状态 。 
车 结 点 状态 为 ABORTED 或 RELEASED (第 12 行 )， 则 线程 可 以 “清除 ”该 结 点 。 为 了 避免 和 其 他 
线程 的 同步 冲突 ， 只 有 当 结 点 是 队列 中 最 后 一 个 元 素 (tail1 的 值 ) 时 才能 被 清除 。 如 果 队 尾 
结 点 为 ABORTED ， 那 么 让 tail1 重 新 指向 那个 结 点 的 前 驱 ， 否 则 ，tail1 被 置 为 mwz11。 相 反 ， 如 果 
分 配 的 结 点 状态 为 WAITIN6 ， 那 么 线程 后 退 并 重 试 。 如 果 线 程 在 获得 结 点 之 前 超时 ， 则 抛 出 
TimeoutException 异 常 (第 27 行 )。 








1 private QNode acquireQNode(Backoff backoff, long startTime, 
2 long patience) 

3 throws TimeoutException, InterruptedException { 

4 QNode node = waiting[random.nextInt(SIZE)]; 

5 QNode currTail; 
6 
7 
8 








while (true) { 
if (node.state.compareAndSet (State.FREE, State.WAITING)) { 
return node; 
9 
10 currTail = tail.get(currStamp); 
11 State state = node.state.get(); 
12 if (state == State.ABORTED || state == State.RELEASED) { 
13 if (node == currTail) { 
14 QNode myPred = null; 
15 if (state == State.ABORTED) { 
16 myPred = node.pred; 
17 } 
18 if (tail.compareAndSet(currTail, myPred, 
19 currStamp[0], currStamp[0]+1)) { 
20 node.state.set(State.WAITING); 
21 return node; 
22 
23 } 
24 } 
25 backoff. backoff(); 
26 if (timeout(patience, startTime)) { 
27 throw new TimeoutException(); 
28 
29 } 
30 } 











图 7-21 CompositeLock 类 : acquireQNode( ) 方 法 


一 旦 线程 获得 一 个 结 点 ， 图 7-22 所 示 的 sp1iceQNode( ) 方 法 则 将 该 结 点 插入 队列 。 线 程 
反复 地 尝试 将 tail 设 置 为 被 分 配 的 结 点 。 如 果 线 程 超 时 ， 则 将 分 配 的 结 点 标记 为 FREE， 然 后 
抛 出 TimeoutException 异 常 。 如 果 成 功 ， 则 返回 tai1 的 先前 值 ， 该 值 由 队列 中 结 点 的 前 驱 所 
获得 。 

最 后 ,一 旦 结 点 已 经 入 队 ， 线 程 必须 通过 调用 waitForPredecessor( ) 来 等 待 轮转 到 它 
(图 7-23)。 如 果 前 驱 为 aul1， 线 程 的 结 点 则 为 队列 中 的 首 元 素 ， 于 是 线程 将 该 结 点 保存 在 线程 
的 局 部 myNode 域 中 (为 了 以 后 的 un1ock() 使 用 ) ， 然 后 进入 临界 区 。 如 果 前 驱 结 点 不 是 
RELEASED ， 那 么 线程 检查 它 是 否 为 ABORTED (第 11 行 )。 如 果 是 ， 线 程 则 将 结 点 标记 为 FREE 并 
且 在 被 放弃 结 点 的 前 驱 上 等 待 。 如 果 线 程 超时 ， 则 把 它 自己 的 结 点 标记 为 ABORTED 并 抛 出 
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TimeoutException 异 常 。 否 则 ， 当 前 驱 结 点 变 为 RELEASED 时 线程 把 它 标记 为 FREE， 将 自己 的 
结 点 记录 在 线程 的 局 部 myNode 域 中 ， 然 后 进入 临界 区 。 

















1 private QNode spliceQNode(QNode node, long startTime, long patience) 
2 throws TimeoutException { 
3 QNode currTail; 
4 do { 
5 currTail = tail.get(currStamp); 
6 if (timeout(startTime, patience)) { 
7 node.state.set (State. FREE); 
8 throw new TimeoutException(); 
9 
10 } while (!tail.compareAndSet(currTail, node, 
11 currStamp[0], currStamp[0]+1)); 
12 return currTail; 
13 
图 7-22 CompositeLock#; spl1iceQNode( ) 方 法 
1 private void waitForPredecessor(QNode pred, QNode node, long startTime, | 
2 long patience) 
3 throws TimeoutException { 
4 int[] stamp = {0}; 
5 if (pred == null) { 
6 myNode.set (node); 
7 return; 
8 } 
9 State predState = pred.state.get(); 
10 while (predState != State.RELEASED) { 
11 if (predState == State.ABORTED) { 
12 QNode temp = pred; 
13 pred = pred.pred; 
14 temp.state.set (State. FREE); 
15 
16 if (timeout(patience, startTime)) { 
17 node.pred = pred; 
18 node.state.set(State. ABORTED); 
19 throw new TimeoutException(); 
20 
21 predState = pred.state.get(); 
22 } 
23 pred.state.set(State. FREE); 
24 myNode.set (node) ; 
25 return; 
26 } 











图 7-23 CompositeLock 类 : waitForPredecessor() 


unlock() 方 法 (图 7-18) 只 是 简单 地 从 myNode 中 查找 它 的 结 点 并 标记 为 RELEASED 。 图 
7-24 是 图 7-18 算 法 的 一 次 实际 执行 过 程 。 

CompositeLock 具 有 一 些 令 人 感 兴趣 的 特性 。 当 多 个 线程 后 退 时 ， 它 们 访问 不 同 的 存储 单 
元 ， 从 而 降低 了 争 用 。 锁 的 切换 就 像 CLHLock 和 T0Lock 算 法 一 样 快 。 放 弃 一 个 锁 请 求 对 处 于 后 
退 阶段 的 线程 来 说 是 平常 的 ， 而 且 对 于 已 经 获得 队列 结 点 的 线程 来 说 要 更 加 简单 直接 。 假 设 
有 Z 个 锁 和 2? 个 线程 ，CompositeLock 类 在 最 坏 情况 下 只 需 O(D) 的 存储 空间 ， 而 TOLock 类 则 需 
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ZOL: n)。 但 该 锁 有 一 个 缺点 : CompositeLock 类 并 不 保证 先 来 先 服务 的 访问 。 














myNode myPred myNode myPred myNode myPred myNode myPred myNode myPred 
线程 C 线程 D 线程 4 线程 B 线程 E 
(等 待 (后 退 到 (在 临界 (超时 拥 (后 退 到 
i [| Node 4) Node 1) 区 中 ) 有 Node 4) Node 4) 


a) 





myNode myPred myNode myPred myNode myPred myNode myPred myNode myPred 
线程 C 线程 D 线程 4 线程 B 线程 E 
(等 待 (后 退 到 “(在 临界 (超时 ) (获得 
Node 3) Node 1) 区 中 ) Node 4) 





b) 














E ua 
myNode myPred myNode myPred myNode myPred myNode myPred myNode myPred 
线程 C 线程 D 线程 4 线程 3 线程 E 
(等 待 (后 退 到 (在 临界 (超时 ) (获得 
Node 3) Node 1) 区 中 ) Node 4) 
c) 


图 7-24 CompositeLock 类 : 一 次 执行 过 程 。 在 a 中 ， 线 程 4 (获得 Node 3) 处 于 临界 区 中 。 
线程 8 (Node 4) 正在 等 待 4 释放 临界 区 ， 线 程 C (Node 1) 则 在 等 待 线程 B。 线 
程 D 和 E 正 在 后 退 ， 等 待 获得 一 个 结 点 。Node 2 是 空闲 的 。tai1 域 指向 Node 1, 该 
结 点 是 最 后 一 个 要 被 插入 到 队列 的 结 点 。 此 时 8B 超时， 从 而 插入 一 个 对 其 前 驱 的 
显 式 引 用 ， 并 把 Node 4 的 状态 从 WAITING (用 W 表 示 ) 变 为 ABORTED (用 4 表示 ) 。 
在 b 中 ， 线 程 C 清 除 状态 为 ABORTED 的 Node 4， 将 其 状态 设置 为 FREE， 并 按照 显 式 
引用 从 4 找到 3 (通过 重新 指向 其 局 部 myPred 域 )。 然 后 开始 等 待 4 (Node 3) 离开 
临界 区 。 在 c 中 ，E 获 取 状 态 为 FREE 的 Node 4， 使 用 compareAndSet() 方 法 将 它 的 
状态 设置 为 NAITING。 接 着 线程 E 把 Node 4 插入 队列 ， 使 用 compareAndSet() 方 法 
把 Node 4 交换 到 tail ， 然 后 等 待 之 前 指向 tail 的 Node 1 


快速 路 径 复 合 锁 


尽管 设计 CompositeLock 的 初衷 是 为 了 保证 在 争 用 时 有 较 好 的 性 能 ， 然 而 在 无 并 发 的 情形 
下 ， 性 能 也 是 非常 重要 的 。 理 想 情 况 下 ， 对 于 一 个 单独 运行 的 线程 来 说 ， 获 取 一 个 锁 应 该 和 
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获取 一 个 无 争 用 的 TASLock 同 样 简 单 。 然 而 ， 在 CompositeLock 算 法 中 ， 一 个 单独 运行 的 线程 
必须 重新 设置 tai] 域 使 之 离开 一 个 已 释放 的 锁 ， 声 明 该 结 点 ， 然 后 把 它 插 入 队列 中 。 

快速 路 径 是 一 条 让 单个 线程 执行 复杂 算法 时 快速 完成 的 捷径 。 可 以 扩展 CompositeLock 算 
法 使 之 包含 一 条 快速 路 径 ， 在 该 快速 路 径 中 一 个 单独 运行 的 线程 不 必 获 取 结 点 并 插入 队列 就 
可 以 获得 一 个 空闲 锁 。 

下 面 给 出 该 算法 的 鸟 梧 图 。 我 们 增加 一 个 额外 的 状态 以 区 分 被 一 般 线 程 持 有 的 锁 和 被 快 
速 路 径 线程 持 有 的 锁 。 如 果 线 程 发 现 锁 是 空闲 的 ， 则 尝试 通过 快速 路 径 来 获取 。 若 成 功 ， 那 
么 它 在 一 个 原子 步 内 就 已 经 获得 了 锁 。 若 失败 ， 那 么 它 像 以 前 一 样 使 自己 入 队 。 

现在 详细 分 析 这 个 算法 。 为 了 减少 重复 代码 ， 将 CompositeFastPathLock 类 定义 为 
CompositeLock 的 子 类 (参见 图 7-25)。 图 7-26 给 出 了 fastPathLock( ) 和 unlock() 方 法 。 





1 public class CompositeFastPathLock extends CompositeLock { 
2 private static final int FASTPATH = ...; 

3 private boolean fastPathLock() { 

4 int oldStamp, newStamp; 

5 int stamp[] = {0}; 

6 QNode qnode; 

7 qnode = tail.get(stamp); 

8 oldStamp = stamp[0]; 





9 if (qnode != null) { 

10 return false; 

11 } 

12 if ((oldStamp & FASTPATH) != 0) { 

13 return false; 

14 } 

15 newStamp = (oldStamp + 1) | FASTPATH; 

16 return tail.compareAndSet(qnode, null, oldStamp, newStamp); 
i} 

18 public boolean tryLock(long time, TimeUnit unit) 
19 throws InterruptedException { 

20 if (fastPathLock()) { 

21 return true; 

22 

23 if (super.tryLock(time, unit)) { 

24 while ((tail.getStamp() & FASTPATH ) != 0){}; 
25 return true; 

26 } 

27 return false; 

28 } 





图 7-25 CompositeFastPathLock#,; 如 果 通 过 快速 路 径 成 功 地 获得 锁 ， 那 么 私有 的 
fastPathLock( ) 方 法 将 返回 true 


用 FASTPATH 标 志 量 来 标识 一 个 线程 已 通过 快速 路 径 获得 了 锁 。 由 于 需要 把 该 标志 量 和 对 
tail1 域 的 引用 作为 一 个 整体 来 操作 ， 所 以 要 从 tai1 域 的 整 型 惟 中 “窃取 ”一 个 高 位 (第 2 行 )。 
私有 的 fastPathLock( ) 方 法 检查 tai1 域 的 整 型 戳 中 是 否 有 一 个 清空 的 FASTPATH 标 志 量 和 一 个 
nul1 引 用 。 如 果 有 ， 则 设法 通过 调用 compareAndSet( ) 将 FASTPATH 标 志 量 置 为 true 来 获得 锁 ， 
同时 确保 引用 仍 为 nu11。 这 样 的 话 ， 对 一 个 无 争 用 的 锁 的 获取 只 需要 一 个 原子 操作 。 如 果 
fastPathLock( ) 方 法 成 功 ， 则 返回 true， 否 则 返回 false。 

tryLock() 方 法 (第 18~28 行 ) 首先 调用 fastPathLock() 来 尝试 快速 路 径 。 如 果 失 败 ， 则 
通过 调用 CompositeLock 类 的 tryLock( ) 方 法 来 尝试 慢 速 路 径 。 然 而 ， 在 从 慢 速 路 径 返 回 之 前 ， 
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它 必 须 保证 没有 其 他 的 线程 持 有 快速 路 径 锁 ， 等 待 FASTPATH 标 志 量 被 清空 (第 24 行 )。 






1 private boolean fastPathUnlock() { 

2 int oldStamp, newStamp; 

3 oldStamp = tail.getStamp(); 

4 if ((oldStamp & FASTPATH) == 0) { 

5 return false; 

6 } int[] stamp = {0}; 

7 QNode qnode; 

8 do { 

9 qnode = tail.get(stamp); 

10 oldStamp = stamp[0]; 

yi newStamp = oldStamp & (~FASTPATH); 
12 } while (!tail.compareAndSet(qnode, qnode, oldStamp, newStamp)); 
13 return true; 

14 } 

15 public void unlock() { 

16 if (!fastPathUnlock()) { 

17 super.unlock(); 

18 h 

19 } 














图 7-26 CompositeFastPathLock#; fastPathLock() 和 unlock() 方 法 


如 果 快 速 路 径 标 志 量 没有 被 设置 (第 4 行 )，fastPathUnlock() 方 法 返回 false。 否 则 ， 它 
不 断 尝 试 清空 标志 量 ， 并 保持 引用 部 分 不 变 (第 8~12 行 )， 当 它 成 功 时 则 返回 true。 

CompositeFastPathLock 类 的 un1ock() 方 法 首先 调用 fastPathUn1lock() (第 16 行 )。 如 
果 该 调用 没 能 释放 锁 ， 那 么 它 接着 调用 CompositeLock 的 un1ock( ) 方 法 (第 17 行 )。 


7.8 层次 锁 


目前 大 多 数 cache 一 致 的 系统 结构 都 以 集群 方式 来 组 织 处 理 器 ， 在 一 个 集群 内 的 通信 要 比 
在 集群 间 的 通信 快 得 多 。 例 如 ， 一 个 集群 可 以 对 应 于 一 组 通过 快速 互 连 来 共享 存储 器 的 处 理 
器 ， 也 可 对 应 于 运行 在 一 个 多 核 系统 结构 中 一 个 单 核 上 的 所 有 线程 。 本 节 主 要 考虑 这 种 对 局 
部 差异 较 敏 感 的 锁 。 称 这 样 的 锁 为 层次 锁 ， 因 为 在 设计 中 要 考虑 系统 的 层次 存储 结构 以 及 访 
问 开 销 。 

系统 结构 的 存储 结构 可 以 具有 多 个 层次 ， 为 简单 起 见 ， 我 们 假设 只 有 两 个 层次 。 下 面 考 
虑 一 种 由 多 个 处 理 器 集群 所 组 成 的 系统 结构 ， 同 一 集群 中 的 处 理 器 通过 共享 cache 进 行 高 效 通 
信 。 集 群 之 间 的 通信 代价 要 比 集群 内 的 代价 大 得 多 。 

假设 每 个 集群 都 有 一 个 唯一 的 集群 id， 该 id 对 集群 内 的 每 个 线程 都 是 已 知 的 ， 并 可 通过 
ThreadID.getCluster( ) 获 得 。 线 程 不 能 在 集群 间 迁 移 。 


7.8.1 层次 后 退 锁 


“测试 一 测 试 一 设置 ” (test-and-test-and-set) 锁 非 常 适 于 集群 开发 。 假 定 线 程 4 持 有 锁 。 若 
A 所 在 集群 中 的 线程 具有 较 短 的 后 退 时 间 ， 那 么 当 释 放 锁 时 ， 本 地 线程 要 比 远程 线程 更 有 可 能 
获得 锁 ， 从 而 降低 了 切换 锁 的 拥有 权 所 需 的 总 上 时间。 图 7-27 描 述 了 一 种 基于 这 种 原则 设计 的 
层次 后 退 锁 HBOLock 。 
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1 public class HBOLock implements Lock { 

2 private static final int LOCAL MIN DELAY = ...; 
3 private static final int LOCAL_MAX DELAY = ...; 
4 private static final int REMOTE MIN DELAY = ...; 
5 private static final int REMOTE MAX DELAY = ...; 
6 private static final int FREE = ~-1; 

7 AtomicInteger state; 

8 public HBOLock() { 

9 state = new Atomicinteger(FREE); 

10 } 

11 public void lock() { 

12 int myCluster = ThreadID.getCluster(); 

13 Backoff localBackoff = 

14 new Backoff(LOCAL_MIN DELAY, LOCAL MAX DELAY); 
15 Backoff remoteBackoff = 

16 new Backoff(REMOTE_MIN DELAY, REMOTE MAX DELAY); 
17 while (true) { 

18 if (state.compareAndSet (FREE, myCluster)) { 
19 return; 
20 } 

21 int lockState = state.get(); 
22 if (lockState == myCluster) { 
23 localBackoff.backoff(); 
24 } else { 
25 remoteBackoff .backoff(); 
26 } 
27 } 

28 } 

29 public void unlock() { 

30 state.set (FREE); 

31 } 





32} 24 


图 7-27 HB0Lock 类 : 层次 后 退 锁 


HBOLock 的 缺点 之 一 就 在 于 它 过 度 利 用 了 局 部 性 。 这 样 有 可 能 存在 同一 集群 中 的 线程 不 断 
地 传递 锁 ， 而 其 他 集群 中 的 线程 发 生 饥 饿 的 现象 。 况 且 ， 获 取 和 有 释 放 锁 会 使 锁 域 的 远程 cache 
副本 无 效 ， 这 将 在 cache 一 致 的 NUMA 系 统 结 构 中 产生 巨大 开销 。 


7.8.2 层次 CLH 队 列 锁 


为 了 提供 一 种 更 为 平衡 的 集群 开发 方法 ， 首 先 分 析 层 次 队列 锁 的 设计 。 层 次 锁 设计 中 ， 
问题 的 关键 就 是 要 协调 冲突 时 的 公平 性 需求 。 既 要 保证 在 同一 集群 内 进行 锁 的 传递 以 避免 较 
高 的 通信 开销 ， 同 时 也 要 保证 某 种 程度 的 公平 性 ， 以 使 远程 锁 请 求 不 至 于 比 本 地 锁 请 求 过 于 
延迟 。 我 们 通过 将 相同 集群 的 请 求 序列 一 起 调度 来 平衡 这 些 需 求 。 

HCLHLock 队 列 锁 (图 7-28) 由 一 组 本 地 队列 和 一 个 全 局 队列 组 成 ， 每 个 集群 对 应 一 个 本 
地 队列 。 所 有 队列 都 是 由 结 点 组 成 的 链表 ， 其 中 的 链接 是 隐 式 的 ， 即 链接 被 保存 在 线程 的 局 
部 域 nyQNode 和 myPred 中 。 

我 们 通常 称 线程 拥有 它 自己 的 myQNode 结 点 。 对 于 队列 中 的 任 一 结 点 ( 除 队 首 以 外 )， 其 拥 
有 者 的 myPred 结 点 就 是 它 的 前 驱 结 点 。 图 7-29 给 出 了 域 和 构造 函数 。 图 7-30 描 述 了 QNode 类 。 每 
个 结 点 有 三 个 虚拟 域 : 当前 (或 最 近 ) 拥有 者 的 Cluster1d， 两 个 布尔 型 域 successorMustWait 
和 tailWhenSp1liced。 之 所 以 称 这 些 域 是 虚拟 的 ， 是 因为 对 它们 的 更 新 要 以 原子 的 方式 进行 ， 
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因此 ， 在 AtomicInteger 域 中 把 它们 描述 为 位 - 域 (bit-field) ， 采 用 简单 的 屏蔽 和 移 位 操作 来 
获取 它们 的 值 。tailWhenSp1iced 域 用 来 说 明 该 结 点 是 否 为 当前 被 拼接 到 全 局 队列 中 的 序列 
的 最 后 一 个 结 点 。successorMustWait 域 和 最 初 的 CLH 算 法 一 样 : 在 入 队 前 被 设 为 true， 在 释 
放 锁 时 由 结 点 的 拥有 者 设 为 false。 这 样 ， 对 于 一 个 正在 等 着 获得 锁 的 线程 来 说 ， 当 其 前 驱 的 
successorMustWait 域 变 为 false 时 ， 该 线程 可 以 向 前 推进 。 由 于 需要 原子 地 更 新 这 些 域 ， 所 
以 它们 应 该 是 私有 的 ， 并 要 使 用 同步 方法 间接 访问 。 

localQueue 网 、 B: 插入 到 本 地 队列 中 





myNode myPred myNode myPred 


线程 8 线程 A (REE) 


a) 


localQueue [7] 









myNode myPred myNode myPred 


线程 8 线程 4 (集群 主 ) 


globalQueue [3] A: 拼接 到 全 局 队列 中 


myNode myPred myNode myPred 


线程 D 线程 C 


b) 


globalQueue 上 


C: 释放 锁 ， 设置 myQNode 为 前 驱 结 点 





myNode myPred myNode myPred myNode myPred myNode myPred 
线程 B 线程 A 线程 D 线程 C 
c) 
图 7-28 HCLHLock 中 的 锁 请 求 和 锁 释 放 。 在 结 点 的 successorMustWait 域 中 ， 用 0 来 标记 
假 ， 用 1 标记 真 。 当 一 个 结 点 正 通过 增加 符号 7 被 拼接 时 ， 该 结 点 被 标记 为 本 地 队 
尾 元 素 。 在 a 中 ，8 将 它 自 己 的 结 点 插入 到 本 地 队列 中 。 在 b 中 ，4 在 将 包含 4 和 8 的 
结 点 的 本 地 队列 拼接 到 已 包含 C 和 D 的 结 点 的 全 局 队列 中 。 在 c 中 ，C 通 过 将 它 的 
结 点 的 successorMustWait 标志 设 为 假 来 释放 锁 ， 然 后 设置 nyQNode 为 前 驱 结 点 
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1 public class HCLHLock implements Lock { 

2 static final int MAX CLUSTERS = ...; 

3 List<AtomicReference<QNode>> localQueues; 

4 AtomicReference<QNode> global Queue; 

5 ThreadLocal<QNode> currNode = new ThreadLocal<QNode>() { 
6 protected QNode initialValue() { return new QNode(); }; 
7 is 

8 ThreadLocal<QNode> predNode = new ThreadLocal<QNode>() { 





9 protected QNode initialValue() { return null; }; 

10 }; 

11 public HCLHLock() { 

12 localQueues = new ArrayList<AtomicReference<QNode>>(MAX_CLUSTERS ) ; 
13 for (int i = 0; i < MAX_CLUSTERS; i++) { 

14 localQueues.add(new AtomicReference <QNode>()); 

15 } 

16 QNode head = new QNode(); 

17 globalQueue = new AtomicReference<QNode> (head) ; 





图 7-29 HCLHLock 类 : 域 和 构造 函数 


class QNode { 
// private boolean tailWhenSpliced; 








1 

2 

3 private static final int TWS MASK = 0x80000000; 
4 // private boolean successorMustWait = false; 

5 private static final int SMW MASK = 0x40000000; 
6 // private int clusterID; 

7 private static final int CLUSTER MASK = Ox3FFFFFFF; 
8 AtomicInteger state; 

9 public QNode() { 

10 state = new AtomicInteger(0); 

11 } 

12 public void unlock() { 

13 int oldState = 0; 

14 int newState = ThreadID.getCluster(); 

15 // successorMustWait = true; 

16 newState |= SMW_MASK; 

17 // tailWhenSpliced = false; 

18 newState &= (~TWS_MASK) ; 

19 do { 
20 oldState = state.get(); 

21 } while (! state.compareAndSet(oldState, newState)); 
22 } 
23 public int getClusterID() { 
24 return state.get() & CLUSTER MASK; 
25 } 
26 // other getters and setters omitted. 





27 } 
图 7-30 HCLHLock2#k; 内 部 QNode 类 


图 7-28 说 明了 HCLHLock 类 是 如 何 获取 和 释放 锁 的 。1ock( ) 方 法 首先 将 线程 的 结 点 加 入 到 
本 地 队列 ， 然 后 等 待 直到 该 线程 要 么 能 够 进入 临界 区 要 么 它 的 结 点 成 为 本 地 队列 的 队 首 。 在 
后 一 种 情况 下 ， 称 该 线程 为 集群 主 ， 由 它 负 责 把 本 地 队列 拼接 到 全 局 队列 中 。 

图 7-31 为 1ock() 方 法 的 代码 。 由 于 线程 的 结 点 已 被 初始 化 ， 所 以 successorMustWait 为 
true，tailWhenSpl1iced 为 false，ClusterId 域 为 调用 者 的 集群 。 该 线程 将 它 的 结 点 加 入 到 其 
本 地 集群 队列 的 最 后 (尾部 )， 使 用 compareAndSet( ) 把 队 尾 改 为 它 的 结 点 (第 9 行 )。 一 旦 成 
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功 ， 该 线程 则 将 它 的 myPred 设 置 为 由 它 替 换 为 队 尾 的 结 点 。 该 结 点 称 为 前 驱 。 

















1 public void lock() { 

2 QNode myNode = currNode.get(); 

3 AtomicReference<QNode> localQueue = localQueues.get 

4 (ThreadID.getCluster()); 
5 // splice my QNode into local queue 

6 QNode myPred = null; 

7 do { 

8 myPred = localQueue.get(); 

9 } while (!localQueue.compareAndSet(myPred, myNode)); 

10 if (myPred != null) { 

11 boolean iOwnLock = myPred.waitForGrantOrClusterMaster(); 
12 if (iQwnLock) { 

13 predNode. set (myPred) ; 

14 return; 

15 } 

16 } 

17 // I am the cluster master: splice local queue into global queue. 
18 QNode localTail = null; 

19 do { 
20 myPred = globalQueue.get(); 
21 localTail = localQueue.get(); 
22 } while(!globalQueue.compareAndSet (myPred, localTail)); 
23 // inform successor it is the new master 
24 localTail.setTailWhenSpliced(true) ; 
25 while (myPred.isSuccessorMustWait()) {}; 
26 predNode.set(myPred) ; 
27 return; 
28} 





图 7-31 HCLHLock 类 : 1ock() 方 法 。 像 CLHLock 中 一 样 ，1ock() 将 前 驱 最 近 所 释放 的 结 点 
保存 起 来 ， 以 用 于 下 一 个 锁 请 求 


线程 随后 调用 waitForGrantOorClusterMaster() (第 11 行 )， 让 线程 自 旋 直到 下 列 条 件 之 

1. 前 驱 结 点 来 自 于 同一 个 集群 ， 且 tailWhenSpliced 和 successorMustWait 都 为 false。 

2. 前 驱 结 点 来 自 于 不 同 的 集群 或 前 驱 的 标志 量 tai1lWhenSp1iced 为 true。 

在 第 一 种 情形 下 ， 线 程 的 结 点 为 全 局 队列 的 队 首 ， 所 以 它 进 入 临界 区 然后 返回 (第 14 行 )。 
在 第 二 种 情形 下 ， 线 程 的 结 点 位 于 本 地 队列 的 队 首 ， 所 以 该 线程 为 集群 主 ， 从 而 由 它 来 负责 
把 本 地 队列 拼接 到 全 局 队列 中 。( 如 果 没 有 前 驱 ， 即 本 地 队列 尾 为 maz1， 则 该 线程 立刻 变 为 集 
HEE.) 大 多 数 由 waitForGrantOrClusterMaster() 所 请 求 的 旋转 都 是 本 地 的 ， 所 以 导致 很 少 
甚至 不 产生 通信 开销 。 

男 外 ， 要 么 该 线程 前 驱 的 tailWhenSp1iced 标 志 量 为 frue， 要 么 其 前 驱 的 集群 与 它 自己 的 
集群 不 同 。 如 果 其 前 驱 属 于 不 同 的 集群 ， 则 前 驱 结 点 不 可 能 在 该 线程 的 本 地 队列 中 。 前 驱 结 
点 必定 已 经 被 移 到 全 局 队列 中 且 被 不 同 集群 中 的 某 个 线程 所 回收 。 另 一 方面 ， 如 果 前 驱 的 
tailWhenSpl1iced 标 志 量 为 true， 则 前 驱 结 点 是 进入 全 局 队列 的 最 后 一 个 结 点 ， 因 此 该 线程 的 
结 点 此 时 处 于 本 地 队列 的 队 首 。 它 不 可 能 被 移 到 全 局 队列 中 ， 因 为 只 有 其 结 点 位 于 本 地 队列 
队 首 的 集群 主 才 能 将 结 点 移 到 全 局 队列 中 。 

作为 集群 主 ， 其 任务 就 是 将 本 地 队列 中 的 结 点 拼接 到 全 局 队列 中 。 本 地 队列 中 的 每 个 线 
程 都 在 其 前 驱 结 点 上 自 旋 。 集 群 主 读 取 本 地 队列 的 队 尾 并 调用 compareAndSet ( ) 将 全 局 队列 
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的 队 尾 改 为 它 在 其 本 地 队列 队 尾 所 看 到 的 结 点 (第 22 行 )。 如 果 成 功 ， 则 myPred 就 是 它 所 替换 
的 全 局 队列 队 尾 (第 20 行 )。 随 后 它 将 最 后 一 个 被 它 拼接 到 全 局 队列 的 结 点 的 tailWhenSpliced 
标志 量 设置 为 true (第 24 行 )， 使 该 结 点 的 (本 地 ) 后 继 知道 它 现在 已 是 本 地 队列 的 队 首 。 该 
操作 序列 按照 在 本 地 队列 中 相同 的 次 序 将 本 地 结 点 (一 直到 本 地 队 尾 ) 移 到 CLH 形 式 的 全 局 
队列 中 。 

一 旦 集群 主 进入 全 局 队列 ， 它 就 与 在 通常 的 CLHLock 队 列 中 一 样 ， 在 它 的 (新 的 ) 前 驱 的 
successorMustWait 域 为 false 时 进入 临界 区 (第 25 行 )。 其 他 那些 结 点 已 被 拼 入 的 线程 认为 什 
么 都 没有 发 生 ， 继 续 像 以 前 一 样 自 旋 。 当 其 前 驱 的 successorMustWait 域 变 为 false 时 ， 所 有 
线程 都 将 进入 临界 区 。 

和 原先 的 CLHLock 算 法 中 一 样 ， 线 程 通过 将 其 结 点 的 successorMustWait 域 设 为 false 来 释 
放 锁 (图 7-32)。 开 锁 时 ， 线 程 将 其 前 驱 的 结 点 保存 起 来 以 便 下 一 次 锁 请 求 使 用 (第 34 行 )。 


public void unlock() { 
QNode myNode = currNode.get(); 
myNode.setSuccessorMustWait (false); 
QNode node = predNode.get(); 
node.unlock(); 





currNode. set (node) ; 





图 7-32 HCLHLock 类 : un1ock() 方 法 。 该 方法 移动 由 1ock( ) 操 作 所 保存 的 结 点 ， 并 对 
QNode 进 行 初 始 化 以 在 下 一 个 锁 请 求 中 使 用 
HCLHLock 锁 适 于 由 本 地 线程 所 组 成 的 序列 ， 这 些 序列 在 全 局 队列 的 等 待 列表 中 ， 一 个 在 


等 待 另 一 个 。 和 CLHLock 锁 一 样 ， 隐 式 引用 的 使 用 最 小 化 了 cache 缺 失 ， 线 程 在 它们 后 继 结 点 
状态 的 本 地 cache 找 贝 上 自 旋 。 


7.9 由 一 个 锁 管理 所 有 的 锁 


本 章 研 究 了 各 种 具有 不 同性 能 和 特点 的 自 旋 锁 。 这 种 多 样 性 非常 有 用 ， 因 为 没有 哪 一 种 
算法 能 够 适用 于 所 有 的 应 用 。 复 杂 的 算法 适 于 一 些 应 用 ， 而 简单 的 算法 则 更 适 于 另 一 些 应 用 。 
最 佳 的 选择 通常 取决 于 应 用 和 目标 系统 结构 的 具体 特性 。 

7.10 ABER 

TTASLock 归 功 于 Clyde Kruskal, Larry Rudolph 和 Marc Snir[133]。 指 数 后 退 是 以 太 网 路 由 
中 的 著名 技术 ， 该 技术 是 由 Anant Agarwal 和 Mathews Cherian[6] 在 多 处 理 器 互 斥 上 下 文中 所 
提出 的 。Tom Anderson [14] 发 明了 ALock 算 法 ， 他 也 是 最 早 在 共享 存储 器 多 处 理 器 上 进行 自 旋 
锁 性 能 实验 研究 的 人 员 之 一 。 由 John Mellor-Crummey 和 Michael Scott[113] 所 发 明 的 MCSLock 
可 能 是 最 著名 的 队列 锁 算法 。 目 前 的 Java 虚 拟 机 采用 了 基于 简化 的 监控 算法 的 对 象 同步 ， 如 
由 David Bacon, Ravi Konuru, Chet Murthy 和 Mauricio Serrano[17] 所 提出 的 Thinlock， 由 Ole 
Agesen, Dave Detlefs, Alex Garthwaite, Ross Knippel, Y. S. Ramakrishna 和 Derek White[7] 


所 提出 的 Metalock， 以 及 由 Dave Dice[31] 提 出 的 RelaxedLock。 所 有 这 些 算法 都 是 MCSLock 锁 
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CLHLock 锁 归功 于 Travis Craig, Erik Hagersten 和 Anders Landin[30,110]。 无 阻塞 时 限 的 
TOLock 则 归功 于 Bill Scherer 和 Michael Scott[138,139]。CompositeLock 及 其 变种 是 由 Virendra 
Marathe, Mark Moir 和 Nir Shavit [120] 提 出 的 。 在 互 斥 中 使 用 快速 路 径 的 思路 归功 于 Leslie 
Lamport [95]。 层 次 锁 是 由 Zoran Radovit 和 Erik Hagersten 提 出 的 。 HB0Lock 则 是 他 们 最 初 所 提 
出 算法 [130] 的 一 种 改进 ， 本 章 所 描述 的 HCLHLock 是 由 Victor Luchangco, Daniel Nussbaum 和 
Nir Shavit [109] 提 出 的 。 

Danny Hendler, Faith Fich 和 Nir Shavit[39] 扩展 了 Jim Burns 和 Nancy Lynch 的 工作 ,证 明 
了 对 于 任意 一 种 无 饥饿 互 斥 算法 ， 即 使 采用 类 似 getAndSet( ) 或 compareAndSet( ) 这 样 的 强 操 
作 ， 都 需要 2(o) 的 空间 ， 这 意味 着 本 章 所 研究 的 所 有 队列 锁 算法 都 是 空间 最 优 的 。 

本 章 的 性 能 分 析 图 主要 是 基于 Tom Anderson[14] 的 经 验 研究 以 及 作者 在 各 种 现代 机 器 上 
所 收集 的 数据 。 之 所 以 使 用 图 示 而 设 有 采用 实际 数据 ， 是 因为 机 器 系统 结构 之 间 的 巨大 差异 
以 及 它们 对 锁 性 能 的 巨大 影响 。 

对 Sherlock Holmes 的 引用 来 自 于 The Sign of Four [36] 。 


7.11 习题 


习题 85. 图 7-33 描 述 了 CLHLock 的 另 一 种 实现 技术 ， 在 这 种 实现 中 ， 线 程 重用 自己 的 结 点 而 不 是 其 
前 驱 的 结 点 。 解 释 这 种 实现 为 什么 会 出 错 。 


1 public class BadCLHLock implements Lock { 本 
2 // most recent lock holder 

3 AtomicReference<Qnode> tail = new Qnode(); 
4 // thread-local variable 

5 ThreadLocal<Qnode> myNode; 

6 public void lock() { 
7 
8 
9 
10 





Qnode qnode = myNode.get(); 

qnode.locked = true; // I'm not done 

// Make me the new tail, and find my predecessor 
Qnode pred = tail.getAndSet (qnode) ; 


11 // spin while predecessor holds lock 
12 while (pred.locked) {} 

13 } 

14 public void unlock() { 

15 // reuse my node next time 

16 myNode.get{).locked = false; 

17 } 

18 static class Qnode { // Queue node inner class 
19 public boolean locked = false; 

20 } 

21 } 








图 7-33 一 种 错误 的 CLHLock 实 现 


习题 86. 假设 有 ?个 线程 ， 每 个 线程 先 执行 foo( ) 方 法 ， 接 着 执行 bar( ) 方 法 。 假 设 要 确保 所 有 线程 
在 foo( ) 结 束 之 后 才 开 始 执行 bar( )。 为 了 实现 这 种 同步 ， 在 foo( ) 和 bar( ) 之 间 设 置 一 个 路 障 。 
第 一 种 路 障 实现 : 使 用 一 个 由 “测试 -测试 -设置 ” 锁 所 保护 的 计数 器 。 每 个 线程 对 计数 器 
加 锁 ， 将 计数 器 加 1， 释 放 锁 ， 然 后 自 旋 ， 重 读 计数 器 直至 它 到 达 n。 
第 二 种 路 障 实现 : 使 用 一 个 "元 布尔 数组 b ， 其 值 全 为 false。 线 程 0 将 b[0] 设 为 true。 每 个 线 
fei (O<i<n) 自 旋 直 到 b[i-1] 为 true， 然 后 将 b 卜 设 为 1rue， 再 继续 前 进 。 
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在 基于 总 线 的 cache 一 致 性 系统 结构 上 比较 这 两 种 实现 的 性 能 。 

习题 87. 证 明 CompositeFastPathLock 实 现 能 保证 互 斥 ， 但 不 是 无 饥饿 的 。 

习题 88. 在 HCLHLock 锁 中 ， 对 于 一 个 给 定 的 集群 主线 程 ， 在 设置 全 局 队 尾 引用 和 设置 最 后 被 拼接 结 
点 的 tailWhenSp1iced 标 志 量 之 间 , 被 拼接 到 全 局 队列 的 结 点 同时 存在 于 本 地 队列 和 全 局 队列 中 。 
解释 该 算法 为 什么 仍然 是 正确 的 。 

习题 89. 在 HCLHLock 锁 中 ， 如 果 在 变 为 集群 主 和 把 本 地 队列 成 功 地 拼接 到 全 局 队列 之 间 的 时 间 间 隔 
太 短 ， 将 会 出 现 什么 情况 ? 提出 一 种 补救 该 问题 的 办 法 。 

习题 90. 为 什么 由 HCLHLock 锁 的 waitForGrantOrClusterMaster( ) 方 法 所 访问 的 State 对 象 的 域 应 
该 被 原子 地 读 和 修改 ? 给 出 HCLHLock 锁 的 waitForGrantOrClusterMaster() 方 法 的 代码 。 在 你 
的 实现 中 是 否 需 要 使 用 compareAndSet()? 如 果 是 ， 那 么 能 否 不 使 用 该 方法 来 有 效 地 实现 呢 ? 

习题 91. 设计 一 个 isLocked( ) 方 法 ， 该 方法 能 测试 一 个 线程 是 否 正在 持 有 锁 (但 没有 获得 锁 ) 。 分 
别 给 出 针对 下 面 各 种 锁 的 实现 : 
。 任 意 testAndSet() 自 旋 锁 。 
。CLH 队 列 锁 。 
。MCS 队 列 锁 。 

习题 92. (难题 ) 如 果 人 允许 对 锁 使 用 读 - 修 改 - 写 操作 ， 那 么 在 第 2 章 无 死 锁 互 斥 的 空间 复杂 度 下 界 
Q2(n) 的 证 明 中 ， 什 么 地 方 会 出 现 错误 ? 
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管 程 是 一 种 能 将 同步 和 数据 结合 在 一 起 的 结构 化 方法 。 与 类 将 数据 和 方法 封装 为 一 个 整 
体 的 概念 相 类 似 ， 管 程 将 数据 、 方 法 和 同步 封装 在 一 个 模块 包 中 。 

模块 的 同步 是 非常 重要 的 。 假 设 应 用 包含 两 个 线程 ， 其 中 一 个 为 生产 者 线程 而 另 一 个 为 
消费 者 线程 ， 它 们 通过 一 个 共享 的 FIFO 队 列 相互 通信 。 我 们 可 以 让 这 两 个 线程 共享 两 个 对 象 : 
一 个 非 同步 队列 和 一 个 保护 该 队列 的 锁 。 生 产 者 的 程序 结构 大 致 如 下 : 


mutex.1ock(); 

try { 
queue.eng(x) 

} finally { 
mutex .unlock(); 


} 


然而 ， 这 种 结构 并 不 是 一 种 行 之 有 效 的 编程 方式 。 假 设 队列 是 有 界 的 ， 那 么 队列 中 如 果 不 存 
在 空 帮 位 置 ， 任 何 试图 把 数据 项 添加 到 满 队 列 中 的 调用 都 不 能 继续 执行 。 应 该 阻塞 调用 还 是 让 其 继 
续 前 进 的 决策 取决 于 队列 的 内 部 状态 ， 而 这 种 内 部 状态 对 于 调用 者 来 说 (应该) 是 不 可 知 的 。 假 设 
应 用 变 成 多 个 生产 者 或 多 个 消费 者 ， 或 者 同时 有 多 个 生产 者 和 消费 者 ， 情 况 将 会 变 得 更 糟 。 每 个 这 
种 线程 都 必须 记录 锁 和 队列 的 对 象 ， 仅 当 每 个 线程 都 遵循 相同 的 锁 约定 时 ， 应 用 才 是 正确 的 。 

一 种 更 合理 的 方法 就 是 让 每 个 队列 来 管理 它 自己 的 同步 。 队 列 自身 有 它 自己 的 内 部 锁 ， 当 
方法 被 调用 时 要 获得 这 个 锁 ， 在 方法 返回 时 要 释放 这 个 锁 。 而 并 不 要 求 每 一 个 使 用 队列 的 线程 
都 必须 遵循 一 个 繁琐 的 同步 协议 。 如 果 一 个 线程 试图 将 一 个 数据 项 添加 到 一 个 已 满 的 队列 中 ， 
那么 enq( ) 方 法 自身 就 能 检测 到 该 问题 ， 并 挂 起 调用 者 ， 当 队列 中 有 空间 时 再 恢复 调用 者 。 


8.2 管 程 锁 和 条 件 


如 第 2 章 和 第 7 章 一 样 ，Lock 是 保证 互 斥 的 基本 机 制 。 在 同一 时 刻 只 有 一 个 线程 能 够 持 有 
锁 。 当 线程 第 一 次 持 有 锁 时 它 就 获得 了 这 个 锁 。 当 线程 停止 持 有 锁 时 它 则 释放 这 个 锁 。 管 程 
将 产生 一 系列 方法 ， 每 个 方法 被 调用 时 获得 锁 ， 而 在 方法 返回 时 则 释放 锁 。 

如 有 果 一 个 线程 无 法 立刻 获得 锁 ， 那 么 它 或 者 自 旋 ， 不 断 地 测试 所 期 望 的 事件 是 否 发 生 ; 
或 者 阻塞 ， 暂 时 放弃 处 理 器 让 另 一 个 线程 运行 。 如 果 我 们 期 望 等 待 的 时 间 较 短 ， 则 采用 在 
多 处 理 器 上 自 旋 是 一 种 有 效 的 方式 ， 其 原因 在 于 阻塞 一 个 线程 需要 开销 很 大 的 操作 系统 调用 。 
如 果 我 们 期 望 等 待 一 个 较 长 的 时 间 间 隔 ， 那 么 阻塞 是 有 意义 的 ， 因 为 一 个 正在 旋转 的 线程 没 


O ”在 其 他 地 方 我 们 把 阻塞 和 非 阻塞 的 同步 算法 区 分 开 来 ， 在 那里 意味 着 完全 不 同 的 东西 : 阻塞 算法 是 指 一 个 
线程 的 延迟 能 够 引起 另 一 个 线程 延迟 的 算法 。 
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有 做 任何 事情 但 使 处 理 器 一 直 在 忙 。 

例如 ， 如 果 一 个 特定 的 锁 被 短暂 地 持 有 ， 那 么 正在 等 待 访 锁 被 释放 的 线程 应 该 自 旋 ， 而 
正在 等 待 着 从 空 缓冲 区 中 出 队 元 素 的 消费 者 线程 则 应 该 阻塞 ， 因 为 我 们 通常 无 法 预测 这 种 等 
待 要 持续 多 和 久 。 把 自 旋 和 阻塞 结合 起 来 往往 是 有 意义 的 :对 于 正在 等 待 出 队 元 素 的 线程 ， 可 
以 先 让 它 自 旋 一 小 段 时 间 ， 如 果 延 迟 较 长 则 切换 为 阻塞 。 阻 塞 在 多 处 理 器 和 单 处 理 器 上 都 可 
以 使 用 ， 而 自 旋 则 只 在 多 处 理 器 上 使 用 。 


编程 提示 8.2.1 本 书 中 的 大 部 分 锁 都 遵循 图 8-1 所 示 的 Lock 接 口 。 下 面 对 Lock 接 口 的 
方法 加 以 解释 . 
。1ock( ) 方 法 将 阻塞 调用 者 直到 它 获得 锁 为 止 。 
。10ckInterruptib1y() 方 法 与 1ock() 方 法 相同 ， 但 如 果 线 程 在 等 待 时 被 中 断 则 会 产生 
一 个 异常 。( 参 见 编程 提示 8.2.2,) 
。unlock() 方 法 释放 锁 。 
。newCondition() 方 法 则 是 一 个 工厂 ， 它 能 创建 并 返回 一 个 与 该 锁 相 关 的 Condition 对 
象 ( 将 在 后 面 解释 )。 
。 当 锁 为 空间 时 ，tryLock() 方 法 将 会 获得 锁 ， 并 立刻 返回 一 个 布尔 值 ， 以 说 明 它 是 否 
已 获得 锁 。 该 方法 也 可 以 使 用 一 个 超时 时 限 来 调用 。 
[i public interface Lock { 
void lock(); 
void lockInterruptibly() throws InterruptedException; 
boolean tryLock(); 
boolean tryLock(long time, TimeUnit unit); 


Condition newCondition(); 
void unlock(); 
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图 8-1 Lock 接 口 
= 


8.2.1 条 件 


当 线程 在 等 待 某 个 事件 发 生 时 ， 例 如 在 等 待 另 一 个 线程 将 一 个 数据 项 放 入 队列 中 ， 释 放 队列 
上 的 锁 是 一 种 很 好 的 选择 策略 ， 因 为 否则 的 话 ， 其 他 的 线程 将 不 能 把 所 期 望 的 数据 项 放 进 队列 。 
当 正 在 等 待 的 线程 释放 了 锁 以 后 ， 需 要 一 种 方法 来 通知 该 线程 在 什么 时 候 再 次 去 尝试 获得 锁 。 

在 Java 的 并 发 包 (以 及 相关 包 ， 如 Pthreads) 中 ， 暂 时 释放 锁 的 能 力 是 由 Condition 对 象 
及 其 相关 锁 来 提供 的 。 图 8-2 描 述 了 由 java.uti] .Concurrent.1ocks 库 所 提供 的 Condition 接 
口 。 每 一 个 条 件 对 象 都 与 一 个 锁 相 关联 ， 可 以 通过 调用 相应 锁 的 newCondition( ) 方 法 来 创建 
条 件 。 如 果 正 在 持 有 锁 的 线程 调用 了 与 该 锁 相对 应 的 条 件 的 await( ) 方 法 ， 则 该 线程 释放 锁 并 
把 自己 挂 起 ， 给 其 他 线程 以 获得 锁 的 机 会 。 当 调用 线程 被 唤醒 时 ， 它 将 重新 去 获取 锁 ， 此 时 
有 可 能 与 其 他 的 线程 发 生 竞争 。 


编程 提示 8.2.2 Java 中 的 线程 能 被 其 他 线程 中 断 。 如 果 一 个 线程 在 调用 Condition 的 
await( ) 方 法 期 间 被 中 断 ， 那 么 该 调用 将 产生 一 个 InterruptedException 异 常 。 对 该 中 断 
的 响应 则 依赖 于 应 用 程序 (简单 地 忽略 掉 中 断 并 不 是 好 的 编程 方式 ) 。 
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图 8-2 给 出 了 一 个 图 示 。 


Condition condition = mutex.newCondition(); 


mutex. lock() 
try { 
while (!property) { // not happy 
condition.await(); // wait for property 
} catch (InterruptedException e) { 
... // application-dependent response 
} 
... // happy: property must hold 











图 8-2 如 何 使 用 Condition 对 象 


为 了 避免 混乱 ， 我 们 通常 在 实例 代码 中 忽略 了 InterruptedException 处 理 程序 ， 尽 管 
它们 在 实际 代码 中 有 可 能 是 必需 的 。 








和 锁 一 样 ，Condition 对 象 必 须要 以 一 种 格式 化 的 方法 来 使 用 。 假 设 一 个 线程 要 等 待 某 个 
特性 满足 。 线 程 在 持 有 锁 的 同时 测试 该 特性 。 如 果 特 性 不 满足 ， 那 么 线程 应 调用 await( ) 来 释 
放 锁 ， 然 后 休眠 直到 另 一 个 线程 唤醒 它 。 要 点 如 下 : 当 线 程 被 唤醒 时 无 法 保证 特性 是 满足 的 。 
await( ) 方 法 有 可 能 出 现 假 返回 〈 即 没有 任何 原因 而 返回 ) ， 或 者 可 能 出 现 给 条 件 发 出 信号 的 
线程 唤醒 了 太 多 的 休眠 线程 。 无 论 是 因为 哪 种 原因 ， 线 程 都 必须 再 次 测试 特性 ， 如 果 发 现 特 
性 仍然 不 满足 ， 那 么 必须 再 次 调用 await( )。 

图 8-3 中 所 示 的 Condition 接 口 是 这 种 调用 的 几 种 演变 形式 ， 其 中 一 些 提供 了 能 够 给 调用 
者 指定 最 大 挂 起 时 间 的 能 力 ， 以 及 说 明 在 线程 等 待 过 程 中 能 否 被 中 断 的 能 力 。 当 一 个 队列 发 
生变 化 时 ， 导 致 该 队列 发 生变 化 的 线程 能 够 通知 其 他 正在 等 待 某 个 条 件 的 线程 。 它 通过 调用 
signal ( ) 来 唤醒 一 个 正在 等 待 条 件 的 线程 ， 而 通过 调用 signalA11( ) 来 唤醒 所 有 的 等 待 线程 。 
图 8-4 描 述 了 管 程 锁 的 执行 过 程 。 
















1 public interface Condition { 

2 void await() throws InterruptedException; 

3 boolean await(long time, TimeUnit unit) 

4 throws InterruptedException; 

5 boolean awaitUntil (Date deadline) 

6 throws InterruptedException; 

7 long awaitNanos(long nanosTimeout) 

8 throws InterruptedException; 

9 void awaitUninterruptibly(); 

10 void signal(); // wake up one waiting thread 
void signalAll(); // wake up all waiting threads 













图 8-3 Condition 接 口 : await() 及 其 演变 将 会 释放 锁 ， 放 弃 处 理 器 ， 然 后 被 唤醒 并 重新 
获取 锁 。signal1() 和 signalA11() 方 法 用 于 唤醒 一 个 或 多 个 等 待 线程 


图 8-5 给 出 了 采用 显 式 锁 和 条 件 来 实现 一 个 有 界 FIFO 队 列 的 代码 。Lock 域 是 所 有 方法 都 必 
须要 获得 的 锁 。 我 们 要 对 它 进行 初始 化 ， 从 而 维护 一 个 用 于 实现 Lock 接 口 的 类 的 实例 。 此 处 使 
用 了 ReentrantLock , 这 是 一 种 由 java.util1.concurrent.1ocks 包 所 提供 的 非常 有 用 的 锁 类 型 。 
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正如 8.4 节 所 讨论 的 一 样 ， 这 种 锁 是 可 重 入 的 : 持 有 这 种 锁 的 线程 能 够 不 用 阻塞 而 重新 获取 它 。 


©... lock() 








a) 


f int E, 临界 区 [7 


@-- 


@~... lock @ lock() 





unlock{) 
signalAll() 


b) c) 


图 8-4 管 程 的 执行 过 程 。 在 a 中 ， 线 程 4 获得 管 程 锁 ， 调 用 了 某 个 条 件 的 await() 而 释放 了 
锁 ， 目 前 在 等 待 室 中 。 随 后 ， 线 程 8 也 执行 同样 的 步骤 ， 进 入 临界 区 ， 调 用 某 个 条 
件 的 await()， 让 出 锁 然后 进入 等 待 室 。 在 b 中 ， 当 C 退 出 临界 区 并 调用 signalA11() 
后 ，4 和 8 都 离开 等 待 室 ， 然 后 尝试 重新 获得 管 程 锁 。 然 而 ， 线 程 了 设法 首先 获得 了 
临界 区 锁 ， 因 此 4 和 8 都 将 自 旋 直 到 C 离 开 临 界 区 。 注 意 ， 如 果 C 调 用 signal1( ) 而 不 
是 SignalA11()， 那 么 4 和 8 中 只 有 一 个 能 离开 等 待 室 ， 另 一 个 则 继续 等 待 





class LockedQueue<T> { 
final Lock lock = new ReentrantLock(); 
final Condition notFull = lock.newCondition(); 
final Condition notEmpty = lock.newCondition(); 


final T[] items; 


int tail, head, count; 
public LockedQueue(int capacity) { 
items = (T[])new Object[capacity]; 


} 


public void enq(T x) { 


Tock. lock(); 
try { 
while (coun 


tail = 0; 
++count; 


notEmpty.signal(); 


} finally { 


Jock.unlock(); 


} 
} 
public T deq() { 
lock. lock(); 
try { 
while (count 


head = 0; 
--count; 


notFull.signal(); 


return x; 
} finally { 


Jock.unlock(); 


== jtems.]ength) 
notFull.await(); 

items[tail] = x; 

if (++tail == items.length) 











== 0) 
notEmpty.await(); 

T x = items [head]; 

if (++head == items.length) 





图 8-5 LockedQueue 类 : 使 用 锁 和 条 件 的 FIFO 队 列 。 有 两 个 条 件 域 ， 一 个 用 于 检测 队列 变 
为 非 空 的 情形 ， 而 另 一 个 用 于 检测 队列 变 为 非 满 的 情形 
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在 实现 中 有 两 个 条 件 对 象 : 当 队 列 从 空 变 为 非 空 时 ， 通 过 notEmpty 对 象 来 通知 正在 等 待 
的 出 队 者 ，notFu11 对 象 则 用 于 相反 的 过 程 。 使 用 两 个 条 件 要 比 使 用 一 个 条 件 更 为 有 效 ， 因 为 
这 样 将 会 减少 不 必要 的 线程 唤醒 ， 但 这 种 方式 比 使 用 一 个 条 件 更 为 复杂 。 

这 种 将 方法 、 互 斥 锁 和 条 件 对 象 组 合 在 一 起 的 整体 称 为 管 程 。 


8.2.2 唤醒 丢失 问题 


正如 锁 本 身 容 易 产生 死 锁 一 样 ，Condition 对 象 本 身 非 常 容易 出 现 唤 醒 去 失 问 题 ， 当 发 生 
唤醒 丢失 时 ， 一 个 或 多 个 线程 一 直 在 等 待 ， 而 没有 意识 到 它们 所 等 待 的 条 件 已 变 为 true。 

唤醒 丢失 现象 能 够 以 很 微妙 的 方式 出 现 。 图 8-6 给 出 了 Queue<T> 类 的 一 种 考虑 不 周 的 优化 
实现 。 在 这 个 实现 中 ， 不 是 采用 每 当 enq( ) 从 队列 中 入 队 一 个 数据 项 时 都 给 notEmpty 条 件 产生 
一 个 信号 的 方式 ， 而 是 采用 了 仅 当 队列 实际 上 从 空 变 为 非 空 时 才 给 条 件 发 出 信号 的 方式 ， 这 
样 做 是 否 更 加 高 效 呢 ?如 果 只 有 一 个 生产 者 和 一 个 消费 者 ， 那 么 这 种 优化 能 够 产生 预期 的 效 
果 ， 但 如 果 有 多 个 生产 者 或 多 个 消费 者 ， 这 样 的 优化 并 不 正确 。 考 虑 下 述 场景 : 消费 者 A4 和 B 
都 试图 从 一 个 空 队列 中 出 队 元 素 ， 它 们 检测 到 队列 为 空 ， 于 是 都 在 notEmpty 条 件 上 阻塞 。 生 
产 者 C 将 缓冲 区 中 的 一 个 数据 项 入 队 ， 给 notEmpty 发 出 信号 ,唤醒 了 A。 然 而 ， 在 A 获得 锁 之 
前 ， 男 一 个 生产 者 D 把 第 二 个 数据 项 放 入 队列 中 ， 由 于 队列 为 非 空 ， 所 以 它 不 对 notEmpty 产 
生 信 号 。 于 是 4 将 获得 锁 ， 移 走 第 一 个 数据 项 ， 而 8 却 成 为 唤醒 丢失 的 受害 者 ， 此 时 缓冲 区 中 
有 一 个 等 待 消 费 的 数据 项 ，B 却 要 永远 地 等 待 。 

虽然 不 存在 对 我 们 的 程序 进行 推理 分 析 的 可 行 办 法 ， 但 有 一 些 简单 的 实用 编程 技术 却 能 
使 唤醒 丢失 最 小 化 。 

。 总 是 通知 所 有 等 待 条 件 的 进程 ， 而 不 是 仅仅 通知 一 个 。 

。 等待 时 指定 一 个 超时 时 限 。 





i public void enq(T x) { 

2 lock. lock(); 

3 try { 

4 while (count == items.length) 
5 notFull.await(); 

6 items[tail] = x; 

7 if (++tail == items. length) 
8 tail = 0; 

9 ++count; 

10 if (count == 1) { // Wrong! 
11 notEmpty.signal(); 
12 
13 } finally { 
14 lock.unlock(); 
15 } 
16 } 








图 8-6 一 个 不 正确 的 实例 。 该 实例 会 发 生 唤醒 丢失 现象 。 仅 当 enq( ) 方 法 是 第 一 次 向 空 组 
冲 区 中 放 入 数据 项 时 ， 才 对 notEmpty 产 生 一 个 信号 。 当 多 个 消费 者 正在 等 待 ， 但 
只 有 第 一 个 被 唤醒 消费 数据 项 时 ,唤醒 丢 失 将 会 出 现 


这 两 种 技术 中 的 任 一 种 都 能 限制 上 述 的 有 界 缓冲 区 错误 。 每 种 方法 都 需要 一 个 小 的 性 能 
开销 ， 但 与 唤醒 丢失 的 代价 相 比 则 可 以 忽略 不 计 。 
Java 通 过 Synchronized 块 和 方法 ， 以 及 内 置 的 wait()、notify() 和 notifyA11() 方 法 ， 
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为 管 程 提供 了 内 置 的 支持 。( 参 见 附录 A。) 
8.3 读者 - 写 者 锁 


许多 共享 对 象 都 具有 下 述 特性 : 大 多 数 读者 调用 只 返回 对 象 的 状态 而 不 修改 对 象 ， 只 
少数 写 者 调用 才 真 正 修改 对 象 。 

读者 之 间 没有 必要 相互 同步 ， 它 们 对 对 象 的 并 发 访问 完全 是 安全 的 。 然 而 ， 写 者 必须 锁 住 
读者 和 其 他 的 写 者 。 读 者 - 写 者 锁 允 许多 个 读者 或 单个 写 者 并 发 地 进入 临界 区 。 其 接口 如 下 ， 


public interface ReadWriteLock { 
Lock readLock(); 
Lock writeLock(); 

} 


该 接口 产生 两 个 锁 对 象 : 读 锁 和 写 锁 。 它 们 满足 下 面 的 安全 特性 ; 
“ 当 任 一 线程 持 有 写 锁 或 读 锁 时 ， 其 他 线程 不 能 获得 写 锁 。 

* 当 任 一 线程 持 有 写 锁 时 ， 其 他 线程 不 能 获得 读 锁 。 

显然 ， 多 个 线程 可 以 同时 持 有 读 锁 。 


8.3.1 简单 的 读者 - 写 者 锁 


下 面 考虑 一 系列 由 简单 到 复杂 的 读者 - 写 者 锁 的 实现 。 图 8-7 一 图 8-9 描 述 了 Simp1eRead- 
WriteLock 类 。 该 类 使 用 一 个 计数 器 来 记录 已 获得 锁 的 读者 的 个 数 ， 同 时 采用 一 个 布尔 域 指明 
是否 已 有 写 者 获得 锁 。 为 定义 相关 的 读 一 写 锁 ， 代 码 中 使 用 了 内 部 类 (inner class), ， 这 是 一 种 
Java 特 性 ， 它 允许 一 个 对 象 (Simp1eReadWriteLock 锁 ) 创建 可 共享 该 对 象 私有 域 的 其 他 对 象 
(8-5 Bt). readLock()fawriteLock( ) 方 法 都 能 返回 实现 这 种 Lock 接 口 的 对 象 。 这 些 对 象 通 
过 writeLock() 对 象 的 域 进行 通信 。 因 为 读 - 写 锁 方 法 彼此 间 必 须 同步 ， 所 以 它们 都 在 共同 的 
SimpleReadWriteLock 对 象 的 Lock 和 condition 域 上 同步 。 





1 public class SimpleReadWriteLock implements ReadWriteLock { | 
2 int readers; 

3 boolean writer; 

4 Lock lock; 

5 Condition condition; 

6 Lock readLock, writeLock; 

7 public SimpleReadWriteLock() { 
8 writer = false; 

9 








readers = 0; 
10 lock = new ReentrantLock(); 
LE readLock = new ReadLock(); 
12 writeLock = new WriteLock(); 
13 condition = lock.newCondition(); 
14 } 
15 public Lock readLock() { 
16 return readLock; 
17 } 
18 public Lock writeLock() { 
19 return writeLock; 
20 } 





图 8-7 SimpleReadWriteLock, 域 和 公共 方法 


132 第 二 部 分 实 K 





21 class ReadLock implements Lock { 















22 public void lock() { 
23 lock. lock(); 

24 try { 

25 while (writer) { 
26 condition. await(); 
27 

28 readers++; 

29 } finally { 

30 lock.unlock(); 

31 

32 } 

33 public void unlock() { 
34 lock. lock(); 

35 try { 

36 readers~-; 

37 if (readers == 0) 
38 condition.signalAl1(); 
39 } finally { 

40 lock.unlock(); 

41 } 

42 } 

43 } 





图 8-8 SimpleReadWriteLock 类 ， 内 部 读 锁 


44 protected class WriteLock implements Lock { 





45 public void lock() { 

46 lock. lock(); 

47 try { 

48 while (readers > 0 || writer) { 
49 condition.await(); 

50 } 

51 writer = true; 

52 } finally { 

53 Jock.unlock(); 


} 

public void unlock() { 
lock. lock(); 
try { 
writer = false; 
condition.signalAl1(); 


} finally { 
lock.unlock(); 





图 8-9 SimpleReadWriteLock#: 内 部 写 锁 
8.3.2 公平 的 读者 - 写 者 锁 


尽管 Simp1eReadWriteLock 算 法 是 正确 的 ， 但 并 不 是 令 人 满意 的 。 通 常情 况 下 ， 读 者 要 
比 写 者 频繁 得 多 ， 这 样 的 话 ， 写 者 有 可 能 被 一 系列 连续 的 读者 锁 在 外 面 很 长 时 间 。 图 8-10 ~ 
图 8-12 中 所 示 的 FifoReadWriteLock 类 描述 了 一 种 给 写 者 赋予 优先 级 的 方法 。 该 类 能 保证 一 旦 
一 个 写 者 调用 了 写 锁 的 1ock( ) 方 法 ， 则 不 允许 有 更 多 的 读者 能 获得 读 锁 ， 直 到 该 写 者 获取 并 
释放 了 该 写 锁 为 止 。 由 于 不 再 让 读者 进入 ， 持 有 读 锁 的 读者 最 终 都 将 结束 ， 写 者 将 获得 写 锁 。 
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public class FifoReadWriteLock implements ReadWriteLock { 


1 

2 int readAcquires, readReleases; 

3 boolean writer; 

4 Lock lock; 

5 Condition condition; 

6 Lock readLock, writeLock; 

7 public FifoReadWriteLock() { 

8 readAcquires = readReleases = 0; 


9 writer = false; 

10 lock = new ReentrantLock(true) ; 
11 condition = lock.newCondition(); 
12 readLock = new ReadLock(); 

13 writeLock = new WriteLock(); 

14 } 

15 public Lock readLock() { 

16 return readLock; 

17 } 

18 public Lock writeLock() { 

19 return writeLock; 

20 } 

21 $ 

22 } 














图 8-10 FifoReadWriteLock2k: 字段 和 公共 方法 








23 private class ReadLock implements Lock { 





24 public void lock() { 

25 lock. lock({); 

26 try | 

27 while (writer) { 

28 condition.await(); 
29 } 

30 readAcquirest++; 

31 } finally { 

32 Jock.unlock(); 

33 } 

34 } 

35 public void unlock() { 
36 lock. lock(); 

37 try { 

38 readReleasest+; 

39 if (readAcquires == readReleases) 
40 condition.signalAl1(); 
41 } finally { 

42 Tock.unlock(); 

43 } 

44 } 

45 } 








图 8-11 FifoReadWriteLock 类 : 内 部 读 锁 类 


readAcquires 域 记录 了 请 求 读 锁 的 总 次 数 ，readReleases 域 记录 了 释放 读 锁 的 总 次 数 。 
当 这 两 个 数量 相等 时 ， 没 有 线程 持 有 读 锁 。( 当 然 ， 这 里 忽略 了 潜在 的 整数 溢出 和 环绕 问题 。) 
该 类 有 一 个 私有 的 1ock 域 ， 该 锁 由 读者 持 有 一 段 较 短 的 时 间 : 它们 获得 锁 ， 把 readAcquires 
加 1， 然 后 释放 锁 。 写 者 则 从 它们 试图 获得 写 锁 直到 释放 写 锁 这 段 时 间 内 都 一 直 持 有 该 锁 。 这 
种 锁 协 议 能 保证 一 旦 一 个 写 者 获得 1ock， 则 新 增 的 读者 都 不 能 将 readAcquires 加 1， 所 以 其 他 
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新 增 的 读者 不 能 获得 读 锁 ， 最 终 当 前 持 有 读 锁 的 所 有 读者 都 将 释放 它 ， 从 而 让 写 者 继续 前 进 。 


private class WriteLock implements Lock { 
public void lock() { 
lock. lock(); 
try { 
while (writer) { 
condition.await(); 
} 
writer = true; 
while (readAcquires != readReleases) { 
condition.await(); 


} finally { 
lock.unlock(); 


} 


} 

public void unlock() { 
writer = false; 
condition.signalAll(); 








图 8-12 FifoReadWriteLock#; 内 部 写 锁 类 


当 最 后 一 个 读者 释放 它 的 锁 时 如 何 通 知 正 在 等 待 的 写 者 呢 ? 当 一 个 写 者 试图 获取 写 锁 时 ， 
它 获得 了 FifoReadWriteLock 对 象 的 1ock。 一 个 释放 读 锁 的 读者 也 获得 了 那个 1ock， 如 果 所 
有 读者 已 经 释放 了 它们 的 锁 ， 释 放 读 锁 的 读者 则 调用 相关 条 件 的 signal( ) 方 法 。 


8.4 我 们 的 可 重 入 锁 


若 使 用 第 2 章 和 第 7 章 中 所 描述 的 锁 ， 一 个 试图 重新 获取 它 自己 已 持 有 的 锁 的 线程 将 会 使 自 
己 陷 入 死 锁 。 当 一 个 获取 锁 的 方法 幅 套 调用 另 一 个 获取 同一 个 锁 的 方法 时 ， 这 种 情形 就 会 发 生 。 

如 果 一 个 锁 能 被 同一 个 线程 多 次 获得 ， 则 称 该 锁 是 可 重 入 的 。 现 在 来 说 明 如 何 通 过 不 可 
重 入 锁 来 构造 可 重 入 锁 ， 该 分 析 主 要 是 为 了 说 明 如 何 使 用 锁 和 条 件 。 实 际 上 ，java.util. 
concurrent.1ocks 包 已 提供 了 可 重 入 锁 类 ， 所 以 没有 必要 自己 来 写 。 

图 8-13 摘 述 了 Simp1eReentrantLock 类 。0wner 域 保存 着 最 后 一 个 获得 锁 的 线程 的 ID ， 每 
当 获 取 锁 时 将 ho1dCount 域 加 1， 每 当 释 放 锁 时 将 ho1dCcount 域 减 1。 当 ho1dCount 为 零 时 锁 为 
空闲 。 由 于 对 这 两 个 域 的 操作 都 是 原子 的 ， 所 以 需要 一 个 内 部 的 短期 锁 。Lock 域 是 由 1ock( ) 
和 un1ock( ) 对 域 进行 操作 时 所 使 用 的 锁 ， 正 在 等 待 该 锁 变 为 空闲 的 线程 则 使 用 condition 域 。 
在 图 8-13 中 ， 内 部 1ock 域 被 初始 化 为 Simp1eLock 类 (幻影 ) 的 一 个 对 象 ， 该 SimpleLock 类 被 
假定 为 不 可 重 入 的 〈 第 6 行 )。 

1ock( ) 方 法 获取 内 部 锁 (第 13 行 )。 如 果 当 前 线程 已 经 是 锁 的 拥有 者 ， 那 么 它 把 保存 的 计 
数 器 加 1 并 返回 (第 15 行 )。 否 则 ， 如 果 保 存 的 计数 器 不 为 零 ， 该 锁 则 被 另 一 个 线程 所 持 有 ， 
调用 者 将 释放 锁 并 等 待 ， 直 到 给 条 件 发 出 信号 为 止 (第 20 行 )。 当 调用 者 被 唤醒 时 ， 它 仍 必须 
继续 检查 保存 的 计数 器 是 否 为 零 。 当 保存 的 计数 器 为 零 时 ， 调 用 线程 则 使 它 自己 成 为 拥有 者 
并 将 保存 的 计数 器 设置 为 1。 

unlock() 方 法 获取 内 部 锁 (第 29 行 )。 如 果 锁 空 闪 或 调用 者 不 是 拥有 者 ， 那 么 该 方法 产生 
一 个 异常 〈 第 31 行 )。 否 则 ， 它 把 保存 的 计数 器 减 1。 如 果 保 存 的 计数 器 为 零 ， 那 么 锁 是 空闲 


第 8 章 


的 ， 于 是 调用 者 用 信和 号 通知 条 件 来 唤醒 一 个 正在 等 待 的 线程 (第 35 行 ) 。 
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public class SimpleReentrantLock implements Lock{ 

Lock lock; 

Condition condition; 

int owner, holdCount; 

public SimpleReentrantLock() { 
lock = new SimpleLock(); 
condition = lock.newCondition(); 
owner = 0; 
holdCount = 0; 

} 

public void lock() { 
int me = ThreadID.get(); 
lock. lock(); 


try { 
if (owner == me) { 
holdCount++; 
return; 


} 
while (holdCount != 0) { 
condition. await(); 
} 
owner = me; 
holdCount = 1; 
} finally { 
lock.unlock(); 
} 
} 
public void unlock() { 
lock. lock{); 
try { 
if (holdCount == 0 || owner != ThreadID.get()) 
throw new I]]legalMonitorStateException(); 
holdCount--; 
if (holdCount == 0) { 
condition.signal(); 
} 
} finally { 
lock.unlock(); 
} 
} 


public Condition newCondition() { 





throw new UnsupportedOperationException("Not supported yet."); 


} 


| 





8.5 信号 量 


图 8-13 Simp1eReentrantLock 类 : 1ock() 和 un1ock() 方 法 


如 前 所 述 ， 互 斥 锁 能 够 保证 在 一 个 时 刻 只 能 有 一 个 线程 进入 临界 区 。 如 果 在 临界 区 被 占用 
期 间 任何 一 个 线程 想 进 入 ， 那 么 该 线程 则 阻塞 ， 将 自己 挂 起 直到 另 一 个 线程 通知 它 去 重新 尝试 
获得 锁 。Semaphore 是 互 斥 锁 的 一 般 化 形式 。 每 个 Semaphore 有 一 个 容量 ， 简 记 为 c。 一 个 


Semaphore 并 不 是 每 次 只 i 


一 个 线程 进入 临界 区 ， 而 是 让 至 多 c 个 线程 进入 ， 其 中 容量 c 是 在 


Semaphore 被 初始 化 时 所 确定 的 。 正 如 在 本 章 注释 中 所 讨论 的 ， 信 和 号 量 是 最 早 的 同步 形式 之 一 。 
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图 8-14 所 示 的 Semaphore 类 提供 了 两 个 方法 : 线程 调用 acquire( ) 以 请 求 获得 进入 临界 区 
的 许可 ， 调 用 release( ) 来 宣布 它 正在 离开 临界 区 。Semahpore 自 身 只 是 一 个 计数 器 : 记录 已 
被 允许 进入 临界 区 的 线程 的 个 数 。 如 果 一 个 新 的 acquire( ) 调 用 将 要 超出 容量 c， 调 用 线程 则 
被 挂 起 直到 有 空间 为 止 。 当 一 个 线程 离开 临界 区 时 ， 它 调用 release( ) 来 通知 一 个 正在 等 待 的 
线程 现在 有 空间 了 。 





1 public class Semaphore { 

2 final int capacity; 

3 int state; 

4 Lock lock; 

5 Condition condition; 

6 public Semaphore(int c) { 
7 capacity = c; 

8 


state = 0; 

9 lock = new ReentrantLock(); 
10 condition = lock.newCondition(); 
11 
12 public void acquire() { 

13 lock. lock(); 

14 try { 

15 while (state == capacity) { 
16 condition. await(); 

17 
18 statet+; 

19 } finally { 

20 lock.uniock(); 

21 } 

22 |} 

23 public void release() { 
24 lock. lock(); 

25 try { 

26 state--; 

27 condition.signalAll(); 
28 } finally { 

29 lock.unlock(); 








图 8-14 Semaphore 的 实现 


8.6 本 章 注 释 


管 程 是 由 Per Brinch-Hansen[52] 和 Tony Hoare[71] 发 明 的 。 信 号 量 则 由 Edsger Dijkstra[33] 
所 发 明 。McKenney[112] 综 述 了 不 同类 型 的 锁 协议 。 


8.7 习题 


习题 93. 用 Java 的 synchronized、wait()、notify() 和 notifyA11() 构 造 代 替 显 式 的 锁 和 条 件 来 重 
新 实现 Simp1eReadWriteLock 类 。 
提示 : 必须 指出 内 部 读 - 写 锁 类 的 方法 是 如 何 锁 住 外 部 的 Simp1eReadWriteLock 对 象 的 。 

习题 94. 由 java.util1.concurrent .1ocks 包 提供 的 ReentrantReadWriteLock 类 不 允许 以 读 模式 持 
有 锁 的 线程 再 次 以 写 模式 来 访问 锁 (线程 将 会 阻塞 )。 通 过 图 示 说 明 在 这 种 设计 方案 中 ， 如 果 允 
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许 这 种 锁 升 级 将 会 出 现 什么 情况 。 188 
习题 95. 一 个 储 著 账 户 对 象 具 有 非 负 结余 ， 并 且 提 供 deposit(k) 和 withdraw() 方 法 。deposit(k) 方 ”|190 

法 使 结余 加 kX， 如 果 结 余 至 少 为 k， 则 withdraw(k) 将 从 结余 中 减 去 £， 否 则 被 阻塞 直至 结余 变 为 k 

或 更 多 。 

1. 用 锁 和 条 件 实现 该 储蓄 账户 对 象 。 

2. 现 在 假设 有 两 种 取款 方式 : 普通 的 和 优先 的 。 设 计 一 种 实现 ， 能 保证 一 旦 有 优先 的 取款 在 等 

待 处 理 则 普通 的 取款 不 会 进行 下 去 。 
3. 现 在 增加 一 个 transfer( ) 方 法 ， 它 将 总 存款 从 一 个 账户 转账 到 另 一 个 账户 : 


void transfer(int k, Account reserve) { 
lock. lock(); 
try { 
reserve.withdraw(k); 
deposit(k); 
} finally {lock.unlock();} 
} 


给 定 10 个 账户 的 一 个 集合 ， 它 们 的 结余 是 未 知 的 。 在 1:00 时 ，n 个 线程 均 设 法 把 100 美 元 从 
另 一 个 账户 转账 到 自己 的 账户 。 在 2:00 时 ， 一 个 Boss 线 程 给 每 个 账户 存 1000 美 元 。 每 个 在 1:00 被 
调用 的 转账 方法 都 一 定 会 返回 吗 ? 
习题 96. 在 共享 浴室 问题 中 有 两 类 线程 ， 分 别称 为 male (男性 ) 和 female (女性 ) 。 只 有 一 个 
bathroom 资 源 ， 必 须 以 如 下 方式 来 使 用 : 
LER: 不 同性 别 的 人 不 能 同时 占用 浴室 。 
2. 无 饥饿 : 每 个 需要 使 用 浴室 的 人 最 终 会 进入 。 
实现 这 个 方法 用 到 四 个 过 程 enterMale( ) 延 迟 调用 者 直至 男性 能 进入 浴室 ，1eaveMale( ) 在 
一 个 男性 离开 浴室 时 被 调用 ， 而 enterFemale( ) 和 1eaveFemale( ) 则 针对 女性 做 相同 的 事 。 例 如 ， 
enterMale(); 
teeth.brush( toothpaste); 
leaveMale(); 
1. 使 用 锁 和 条 件 变量 实现 这 个 类 。 
2. 使 用 Synchronized、wait()、notify() 和 notifyA11() 实 现 这 个 类 。 
对 每 一 种 实现 ， 解 释 为 什么 满足 互 斥 和 无 饥饿 条 件 。 191 
习题 97. Rooms 类 管理 着 一 个 编号 从 0 至 m (m 是 构造 函数 的 一 个 参数 ) 的 房间 集合 。 线 程 能 进入 或 
离开 这 个 范围 内 的 任 一 房间 。 每 一 个 房间 都 能 同时 容纳 任意 数量 的 线程 ， 但 每 次 只 有 一 个 房间 
能 被 占用 。 例 如 ， 如 果 有 两 个 房间 ， 编 号 分 别 为 0 和 1， 那 么 可 以 有 任意 数量 的 线程 可 以 进入 房 
间 0， 但 当 房 间 0 被 占用 时 没有 线程 能 够 进入 房间 1。 图 8-15 给 出 了 Rooms 类 的 概要 。 


public class Rooms { 
public interface Handler { 
void onEmpty(); 


public Rooms(int m) { ... }; 


void enter(int i) { ... }; 
boolean exit() { ... }; 
public void setExitHandler(int i, Rooms.Handler h) { ... }; 








图 8-15 Rooms 类 
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可 以 为 每 个 房间 分 配 一 个 出 口 处 理 程序 (exit handler); 调用 setHandler(i,h) 为 房间 i 设置 出 
口 处 理 程 序 h。 出 口 处 理 程 序 被 最 后 一 个 离开 房间 的 线程 在 任何 随后 的 线程 进入 任 一 房间 之 前 来 
调用 。 该 方法 被 调用 一 次 且 当 它 正在 运行 时 没有 线程 在 任意 一 个 房间 中 。 

实现 满足 下 列 条 件 的 Rooms 类 :; 

RARER, ， 则 没有 线程 在 房间 ) (ei) 中 。 

。 最 后 离开 房间 的 线程 调用 房间 的 出 口 处 理 程序 ， 并 且 当 处 理 程序 正在 运行 时 没有 线程 在 任 

何 一 个 房间 中 。 

现 必须 是 公平 的 : 任何 试图 进入 房间 的 线程 最 终 都 将 成 功 。 显 然 ， 可 以 假设 每 一 个 进入 
房间 的 线程 最 终 都 会 离开 。 
习题 98. 考虑 一 种 具有 主动 和 被 动 两 类 不 同 线程 集合 的 应 用 ， 现 要 阻塞 被 动 线程 直至 所 有 主动 线程 
都 允许 被 动 线程 继续 前 进 。 

CountDownLatch 封 装 了 一 个 计数 器 ， 初 始 化 为 主动 线程 的 个 数 上 。 当 一 个 主动 的 方法 准备 由 
被 动 线程 执行 时 ， 它 调用 countDown( )， 使 计数 器 减 1。 每 个 被 动 线程 调用 await()， 阻 塞 该 线程 
直至 计数 器 为 零 (参见 图 8-16)。 

class Driver { | 














1 

2 void main() { 

3 CountDownLatch startSignal = new CountDownLatch(1); 

4 CountDownLatch doneSignal = new CountDownLatch(n); 

5 for (int i = 0; i < n; ++i) // start threads 

6 new Thread(new Worker(startSignal, doneSignal)).start(); 
7 doSomethingElse(); // get ready for threads 

8 startSignal.countDown(); // unleash threads 

9 doSomethingElse(); // biding my time ... 

10 doneSignal .await(); // wait for threads to finish 
11 } 

12 class Worker implements Runnable { 

13 private final CountDownLatch startSignal, doneSignal; 

14 Worker (CountDownLatch myStartSignal, CountDownLatch myDoneSignal) { 
15 startSignal = myStartSignal; 

16 doneSignal = myDoneSignal; 

17 } 

18 public void run() { 

19 startSignal.await(); // wait for driver's OK to start 
20 doWork(); 
21 doneSignal.countDown(); // notify driver we're done 
22 } 
23 P 
24 } 
25 } 











图 8-16 CountDownLatch#: 一 个 示例 用 法 


给 出 一 个 CountDownLatch 的 实现 。 不 用 考虑 CountDownLatch 对 象 的 重用 。 
132 习题 99. 本 题 是 习题 98 的 后 续 。 给 出 一 AUDownLaEah hA, 使 得 CountDownLatch 对 象 能 
193 重用 。 
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链表 : 锁 的 作用 





9.1 引言 


第 7 章 讲述 了 如 何 构建 可 扩展 的 自 旋 锁 ， 这 种 自 旋 锁 能 保证 即使 在 锁 被 频繁 使 用 时 也 具有 
高 效 的 互 斥 性 。 现 在 看 来 构建 可 扩展 的 并 发 数据 结构 是 一 件 简单 的 事 : 首先 构造 这 个 类 的 顺 
序 实现 ， 然 后 增加 一 个 可 扩展 的 锁 域 ， 并 保证 每 个 方法 调用 都 应 获取 释 放 这 个 锁 。 这 种 方 
式 称 为 粗 粒度 同步 。 

通常 ， 粗 粒度 同步 的 效果 很 好 ， 但 在 某 些 重要 的 场合 却 并 非 如 此 。 问 题 在 于 使 用 单一 锁 
来 协调 控制 所 有 方法 调用 的 类 ， 即 使 在 锁 本 身 是 可 扩展 的 情形 下 也 并 非 总 是 可 扩展 的 。 当 并 
发 程度 较 低 时 ， 粗 粒度 同步 的 效果 很 好 ， 但 如 果 有 很 多 线程 试图 同时 存 取 一 个 对 象 ， 这 个 对 
象 将 变 成 一 个 顺序 的 瓶颈 ， 从 而 使 得 线程 必须 排队 等 待 。 

本 章 介绍 几 种 比 粗 粒度 锁 更 优 的 实用 技术 ， 它 们 能 有 效 地 支持 多 个 线程 同时 存 取 单一 对 象 。 

。 细 粒度 同步 : 不 再 使 用 单一 锁 来 解决 每 次 对 象 存 取 的 同步 ， 而 是 将 对 象 分 解 成 一 些 独立 

的 同步 组 件 ， 并 确保 只 有 当 多 个 方法 调用 试图 同时 访问 同一 个 组 件 时 才 发 生 冲 突 。 

。 乐 观 同步 ; 许多 类 似 于 树 或 链表 这 样 的 对 象 是 由 多 个 组 件 通过 引用 链接 在 一 起 所 组 成 的 。 

有 一 些 方法 用 于 查找 该 对 象 的 特定 组 成 部 分 〈 例 如 ， 一 个 具有 特定 关键 字 的 链表 或 树 的 

结 点 ) 。 一 种 减少 细 粒 度 锁 代价 的 办 法 就 是 在 查找 时 无 需 获取 任何 锁 。 如 果 方 法 找到 所 

需 的 部 分 ， 它 就 锁 住 该 组 件 ， 然 后 确认 该 组 件 在 被 检测 和 上 锁 期 间 没 有 发 生变 化 。 这 种 

技术 只 有 在 成 功 次 数 高 于 失败 次 数 时 才 具 有 价值 ， 这 也 是 称 之 为 乐观 的 原因 。 

。 情 性 同步 ， 有 时 将 较 难 的 工作 推迟 完成 是 一 种 好 的 处 理 方式 。 例 如 ， 从 一 个 数据 结构 中 

删除 某 个 部 分 可 以 分 为 两 个 阶段 : 通过 设置 标志 位 来 逻辑 删除 这 个 部 分 ， 然 后 再 通过 从 

数据 结构 中 外 除 这 部 分 来 物理 删除 它 。 

。 非 阻塞 同步 ， 有 了 时 可 以 完全 消除 锁 ， 依 靠 类 似 compareAndSet( ) 的 内 置 原子 操作 进行 同步 。 

上 述 每 种 技术 都 可 应 用 于 (通过 适当 定制 ) 多 种 通用 数据 结构 。 本 章 主要 研究 如 何 使 用 
链表 实现 集合 ， 这 里 是 指 不 包含 重复 元 素 的 集合 。 

为 了 实现 此 目标 ， 如 图 9-1 所 示 ， 一 个 集合 应 提供 以 下 三 种 方法 : 


1 public interface Set<T> { 
boolean add(T x); 
boolean remove(T x); 
boolean contains(T x); 


} 


图 9-1 Set 接 口 : add() 方 法 将 一 个 元 素 增加 到 集合 中 (如 果 该 元 素 已 经 存在 于 集合 中 ， 那 么 
该 方法 不 产生 任何 影响 ) remove ) 方 法 删除 一 个 元 素 〈( 当 该 元 素 在 集合 中 时 ) ， 
contains() 方 法 返回 一 个 布尔 值 ， 表 示 一 个 元 素 是 否 在 集合 中 


。add(x) 方 法 将 元 素 x 添 加 到 集合 中 ， 当 且 仅 当 集 合 中 原先 不 存在 x 时 返回 true。 








ON 
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。remove(x) 方 法 将 元 素 x 从 集合 中 删除 ， 当 且 仅 当 集 合 中 原先 存在 x 时 返回 true。 

* 当 且 仅 当 集合 中 包含 元 素 x 时 contains(x) 返 回 true。 

对 每 一 个 方法 ， 若 对 它 的 一 次 调用 返回 true， 则 称 该 调用 是 成 功 的 ， 否 则 称 为 不 成 功 的 。 
在 使 用 集合 的 应 用 中 ，contains() 调 用 通常 要 比 add( ) 和 remove( ) 调 用 频繁 得 多 。 


9.2 基于 链表 的 集合 


本 章 给 出 了 一 系列 并 发 集合 算法 ， 所 有 这 些 算法 都 基于 同一 个 基本 思想 。 集 合 是 用 结 点 

组 成 的 链表 来 实现 的 。 如 图 9-2 所 示 , Node<T> 类 有 三 个 域 ， > 
E 1 private class Node { 

item 域 是 实际 的 数据 项 。key 域 是 数据 元 素 的 哈 希 码 。 结 2 T item; 
点 按 key 值 排序 ， 以 提供 检测 元 素 是 否 在 链表 中 的 有 效 方 eas 
式 。next 域 是 指向 链表 中 下 一 个 结 点 的 引用 。( 某 些 算法 5} 
需要 对 这 个 类 做 一 些 技术 上 的 改变 ， 例 如 ， 增 加 新 的 域 或 
改变 已 有 域 的 类 型 。) 为 简单 起 见 ， 假 设 每 个 元 素 的 哈 希 








图 9-2 Node<T> 类 ; 该 内 部 类 包含 
元 素 、 元 素 的 key 以 及 链表 


码 是 唯一 的 〈 对 这 种 假设 的 放松 留 作 习题 ) 。 在 本 章 的 所 中 的 下 一 个 结 点 。 有 些 算 法 
有 例子 中 ， 数 据 元 素 都 是 和 同一 个 结 点 及 key 值 相 联系 的 ， 需要 对 这 个 类 做 些 修改 





这 样 可 以 随意 使 用 符号 ， 用 同一 个 符号 来 表示 结 点 、 它 的 
key 值 以 及 它 所 代表 的 元 素 。 例 如 ， 结 点 a 的 Key 为 4， 数 据 元 素 也 是 a， 等 等 。 

链表 具有 两 种 类 型 的 结 点 。 除 了 包含 集合 元 素 的 常规 结 点 外 ， 还 使 用 了 两 个 称 为 head 和 
tail 的 哨兵 结 点 作为 链表 的 第 一 个 和 最 后 一 个 元 素 。 哨 兵 结 点 不 能 被 添加 、 删 除 或 查找 ， 它 
们 的 key 值 分 别 是 最 小 的 和 最 大 的 整数 值 。9 图 9-3 的 前 一 部 分 在 暂 不 考虑 同步 的 情形 下 描述 了 


pred curr 














图 9-3 Set 的 顺序 实现 : 增加 和 删除 结 点 。 在 图 a 中 ， 线 程 使 用 两 个 变量 来 增加 结 点 :curr 为 
当前 结 点 ，pred 为 前 驱 结 点 。 线 程 顺 着 链表 将 curr 的 key 与 5 相 比 较 。 如 果 找 到 一 个 匹 
配 ， 说 明 元 素 已 经 存在 于 集合 中 ， 那 么 返回 false。 如 果 curr 到 达 一 个 具有 更 大 key 值 的 
结 点 ， 说 明 元 素 不 在 集合 中 ， 则 让 4b 的 next 域 指向 curr，pred 的 next 域 指向 p。 在 图 b 
中 ， 要 删除 curr ， 线 程 将 pred 的 next 域 设 为 curr 的 next 





日 ”这 里 给 出 的 所 有 算法 都 适用 于 具有 最 小 和 最 大 且 完 整 的 关键 字 组 成 的 有 序 集 ， 也 就 是 说 ， 对 于 任意 给 定 的 
关键 字 ， 只 有 有 限 多 个 关键 字 小 于 该 关键 字 。 例 如 ， 假 定 这 些 关 键 字 为 整数 。 
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一 个 元 素 是 如 何 被 添加 到 集合 中 的 。 任 意 一 个 线程 4 具有 两 个 用 来 遍历 链表 的 变量 : curry 
当前 结 点 ，preds 为 当前 结 点 的 前 驱 结 点 。 为 了 将 一 个 元 素 添加 到 集合 中 ， 线 程 4 将 局 部 变量 
pred4 和 currs 设 为 head， 然 后 顺 着 链表 比较 currs 的 key 和 被 加 入 结 点 的 key。 如 果 匹 配 ， 说 明 
该 元 素 已 经 存在 于 集合 中 ， 所 以 调用 返回 false。 如 果 preds 领 先 curr。， 则 preds 的 key 比 被 插 
入 结 点 的 key 小 ，currs 的 key 比 被 插入 结 点 的 key 大 ， 所 以 该 元 素 原来 不 在 链表 中 。 该 方法 创 
建 一 个 新 结 点 b 来 保存 元 素 的 值 ， 设 置 b 的 next 域 指向 curr4。， 然 后 设置 preds 指 向 结 点 bs。 从 集 
合 中 删除 一 个 元 素 的 操作 采用 类 似 的 方法 实现 。 


9.3 并 发 推理 


并 发 数据 结构 的 推理 分 析 看 似 十 分 困难 ， 但 实际 上 是 一 种 可 以 掌握 的 技巧 。 通 常 ， 掌 握 
并 发 数据 结构 的 关键 就 是 理解 其 不 变 式 : 指 一 直 保 持 的 特性 。 可 以 通过 证 明 下 述 性 质 来 证 明 
一 个 特性 是 不 变 的 . 

1. 对 象 被 创建 时 该 性 质 成 立 。 

2. 一 旦 性 质 成 立 ， 则 任何 线程 都 不 能 使 得 该 性 质 为 false。 

显然 ， 大 多 数 不 变 式 在 链表 创建 时 都 是 成 立 的 。 所 以 ， 关 键 要 关注 一 旦 链表 被 创建 后 ， 
不 变 式 是 如 何 保持 的 。 

特别 地 ， 可 以 通过 检查 每 次 insert()、remove() 和 contains( ) 方 法 调用 时 每 个 不 变 式 都 
是 成 立 的 。 这 种 方式 只 有 在 假设 这 些 方法 是 唯一 修改 结 点 的 途径 时 才 是 有 效 的 ， 称 这 种 性 质 
为 无 干扰 性 。 在 本 章 的 链表 算法 中 ， 结 点 是 链表 的 内 部 元 素 ， 由 于 链表 用 户 无 法 修改 内 部 结 
点 ， 所 以 保证 了 无 干扰 性 。 

即使 对 于 那些 已 从 链表 中 删除 的 结 点 也 需要 无 干扰 性 ， 因 为 有 些 算法 允许 在 其 他 的 线程 
遍历 结 点 的 同时 ， 一 个 线程 可 以 从 链表 中 删除 该 结 点 。 幸 运 的 是 ， 我 们 并 不 打算 重用 那些 从 
链表 中 删除 的 结 点 ， 而 是 使 用 垃圾 回收 器 回收 这 些 存储 器 。 本 章 的 算法 也 适 于 不 具备 垃圾 回 
收 功能 的 语言 ， 但 有 时 需要 一 些 重 要 的 修改 ， 这 些 修改 超出 了 本 章 所 讨论 的 范围 。 

在 分 析 并 发 对 象 的 实现 时 ， 理 解 对 象 的 抽象 表示 (这 里 指 元 素 的 集合 ) 和 具体 实现 (这 
里 指 由 结 点 构成 的 链表 ) 之 间 的 区 别 是 非常 重要 的 。 

并 非 每 种 由 结 点 构成 的 链表 都 能 够 很 好 地 描述 集合 。 一 个 算法 的 不 变 式 说 明 决 定 了 哪 种 
说 明 作为 抽象 表示 是 有 意义 的 。 如 果 a 和 b 为 结 点 ， 当 a 的 next 域 是 一 个 指向 bp 的 引用 时 ， 则 称 a 
指向 gp。 如 果 存 在 一 个 结 点 序列 ， 从 head 开 始 ， 到 8 结束 ， 其 中 的 每 个 结 点 都 指向 它 的 后 继 结 
点 ， 那 么 称 结 点 b 是 可 达 的 。 

本 章 所 描述 的 集合 算法 要 求 具备 如 下 的 不 变 式 (有 一 些 需要 更 多 , 将 在 后 面 解释 )。 首 先 ， 
哨兵 结 点 既 不 能 增加 也 不 能 删除 。 其 次 ， 结 点 按 关键 字 排 序 ， 且 关键 字 值 是 唯一 的 。 

我 们 将 不 变 式 表 示 为 对 象 方法 之 间 的 契约 。 每 个 方法 调用 保持 不 变 式 ， 同 时 其 他 方法 也 保 
持 不 变 式 。 采 用 这 种 方式 ， 可 以 隔离 地 分 析 每 个 方法 ， 而 不 用 考虑 它们 之 间 所 有 可 能 的 交互 。 

对 于 一 个 给 定 的 满足 不 变 式 说 明 的 链表 ， 它 描述 的 是 哪 一 个 集合 呢 ? 这 种 链表 的 含义 由 
抽象 映射 所 确定 ， 抽 象 映射 将 满足 不 变 式 说 明 的 链表 映射 为 集合 。 此 处 ， 抽 象 映射 非常 简单 : 
当 且 仅 当 一 个 元 素 是 可 达 的 ， 该 元 素 属于 该 集合 。 

需要 什么 样 的 安全 性 和 话 性 呢 ? 我 们 的 安全 性 是 指 可 线性 化 性 。 正 如 第 3 章 中 所 指出 的 ， 要 
证 明 一 种 并 发 数据 结构 是 一 个 顺序 对 象 的 可 线性 化 实现 ， 只 需 说 明 一 个 可 线性 化 点 ， 即 方法 调 
用 “生效 ”的 那个 原子 操作 步 。 这 个 操作 可 以 是 读 、 写 或 更 复杂 的 原子 操作 。 在 基于 链表 的 集 
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合 的 所 有 执行 经 历 中 ， 它 必定 是 这 种 情形 : 如 果 抽 象 映射 用 于 可 线性 化 点 的 不 变 式 说 明 ， 则 状 
态 和 方法 调用 的 结果 序列 将 定义 一 个 顺序 的 集合 执行 。 这 里 ，add(a) 将 a 增加 到 抽象 集合 ， 
remove(a) 从 抽象 集合 中 删除 元 素 4，contains(q) 返 回 true 或 者 false， 取 决 于 元 素 a 是 否 在 集合 中 。 

不 同 的 链表 算法 需要 使 用 不 同 的 演进 保证 。 有 些 使 用 锁 ， 但 要 注意 确保 无 死 锁 和 无 饥饿 
特性 。 一 些 非 阻塞 算法 根本 不 需要 锁 ， 而 其 他 一 些 算法 则 将 锁 限制 在 特定 的 方法 中 。 下 面 是 
从 第 3 章 开 始 所 使 用 的 非 阻塞 特 性 的 简要 概括 9: 

。 如 果 能 保证 一 个 方法 的 每 次 调用 都 在 有 限 步 内 完成 ， 那 么 这 个 方法 就 是 无 等 待 的 。 

。 如 果 能 保证 一 个 方法 的 某 个 调用 总 是 能 在 有 限 步 内 完成 ， 那 么 这 个 方法 就 是 无 锁 的 。 

现在 开始 研究 一 系列 基于 链表 的 集合 算法 。 首 先 从 采用 粗 粒 度 同步 的 算法 开始 ， 然 后 改 
进 这 些 算法 以 减 小 锁 的 粒度 。 形 式 化 的 正确 性 证 明 超出 了 本 书 范围 。 我 们 只 关注 解决 日 常 问 
题 的 非 形 式 化 推理 方法 。 

如 前 所 述 ， 在 每 一 种 算法 中 ， 方 法 使 用 两 个 局 部 变量 扫描 整个 链表 : curr 为 当前 结 点 ，pred 
为 其 前 驱 结 点 。 这 些 变 量 都 是 线程 的 局 部 变量 9 ， 所 以 使 用 pred4 和 currs 表 示 线 程 A4 所 用 的 实例 。 


9.4 粗 粒度 同步 
首先 分 析 一 个 使 用 粗 粒 度 同步 的 简单 算法 。 图 9-4 和 图 9-5 描 述 了 该 粗 粒 度 算法 的 add( ) 方 
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public class CoarseList<T> { 
private Node head; 
private Lock lock = new ReentrantLock(); 
public CoarseList() { 
head = new Node(Integer.MIN VALUE) ; 
head.next = new Node(Integer.MAX_VALUE) ; 
} 
public boolean add(T item) { 
Node pred, curr; 
int key = item.hashCode(); 
lock. lock(); 
try { 
pred = head; 
curr = pred.next; 
while (curr.key < key) { 
pred = curr; 
curr = curr.next; 
} 
if (key == curr.key) { 
return false; 
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21 } else { 

22 Node node = new Node(item); 
23 node.next = curr; 

24 pred.next = node; 

25 return true; 

26 } 

27 } finally { 

28 Tock.unlock(); 

29 } 
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图 9-4 CoarseList 类 : add() 方 法 





日 ”第 3 章 介 绍 了 一 种 更 弱 的 无 阻塞 特性 。 
日 ”附录 A 描述 了 Java 中 的 局 部 变量 的 用 法 。 
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法 和 remove ( ) 方 法 。(contains 方 法 基本 上 相同 ， 留 作 习题 。) 链表 本 身 具 有 一 个 锁 ， 每 个 方 

法 调用 都 必须 要 获取 这 个 锁 。 该 算法 最 大 的 优点 就 是 其 显而易见 的 正确 性 。 所 有 的 方法 只 有 [200 
在 获取 锁 时 才能 对 链表 进行 操作 ， 所 以 执行 实际 上 是 串 行 的 。 为 了 简单 起 见 ， 从 此 时 起 遵守 

这 样 一 种 约定 ， 即 任何 试图 获取 锁 的 方法 调用 的 可 线性 化 点 就 是 锁 被 获取 的 瞬间 。 























public boolean remove(T item) { 
32 Node pred, curr; 
33 int key = item. hashCode(); 
34 lock. lock(); 
35 try { 
36 pred = head; 
37 curr = pred.next; 
38 while (curr.key < key) { 
39 pred = curr; 
40 curr = curr.next; 
41 
42 if (key == curr.key) { 
43 pred.next = curr.next; 
44 return true; 
45 } else { 
46 return false; 
47 
48 } finally { 


lock.unlock(); 


图 9-5 CoarseList 类 : remove ) 方 法 。 所 有 方法 都 要 获取 同一 个 锁 ， 该 锁 将 在 
finally 块 退出 时 被 释放 


CoarseList 类 满足 与 它 的 锁 相 同 的 演进 条 件 ， 如 果 1ock 是 无 饥饿 的 ， 则 实现 也 是 无 饥饿 
的 。 如 果 竞争 不 激烈 ， 那 么 该 算法 是 实现 链表 的 一 种 很 好 的 方式 。 然 而 ， 如 果 竞 争 激烈 ， 则 
即使 锁 本 身 非 常 好 ， 线 程 也 会 延迟 等 待 其 他 线程 。 


9.5 细 粒 度 同 步 


可 以 通过 锁定 单个 结 点 而 不 是 整个 链表 来 提高 并 发 性 。 给 每 个 结 点 增加 一 个 Lock 变 量 以 
及 相关 的 1ock() 和 un1ock( ) 方 法 ， 当 线程 遍历 链表 的 时 候 ， 若 它 是 第 一 个 访问 结 点 的 线程 ， 
则 锁 住 被 访问 的 结 点 ， 在 随后 的 某 个 时 刻 释 放 锁 。 这 种 细 粒 度 的 锁 机 制 允 许 并 发 线程 以 流水 
线 的 方式 遍历 链表 。 

考虑 两 个 结 点 a 和 b5， 其 中 a 指向 bp。 在 对 bp 上 锁 之 前 对 a 进行 解锁 是 不 安全 的 ， 因 为 在 对 a 解 
锁 和 对 b 上 锁 期 间 ， 另 一 个 线程 有 可 能 将 bp 从 链表 中 删除 。 然 而 ， 线 程 A4 必 须 以 一 种 “交叉 手 ” 
的 方式 来 获取 锁 : 除了 初始 的 head 哨 兵 结 点 外 ， 只 有 在 已 获得 preds 的 锁 时 ， 才 能 获得 curr。 
的 锁 。 这 种 锁 协 议 有 时 称 为 锁 耦 合 。( 注 意 不 存在 直接 使 用 Java 的 synchronized 方 法 来 实现 锁 
耦合 的 方式 。) 

图 9-6 撕 述 了 FineList 算 法 的 add( ) 方 法 ， 图 9-7 是 该 算法 的 remove( ) 方 法 。 与 粗 粒度 链表 
一 样 ，remove( ) 通 过 将 preds 的 next 域 设 为 指向 currs 的 后 继 ， 使 得 currs 是 不 可 达 的 。 为 了 保 
证 安全 性 ，remove( ) 必 须 锁 住 preds 和 curr。。 为 了 明白 这 样 做 的 原因 ， 考 虑 图 9-8 所 示 的 场景 。 
线程 4 准备 删除 链表 中 的 第 一 个 结 点 a， 同 时 线程 B 准 备 删 除 X?， 其 中 a 指向 bp。 假 设 4 锁 住 head， 


N 
© 
= 


N 
N 


144 第 二 部 分 实 B 


B 锁 住 4a。 然 后 4 设置 head.next 指 向 bp， 而 8B 设置 a.next 指 向 ce。 这 样 做 的 效果 是 删除 4a 而 不 是 删 
除 b5。 问 题 在 于 两 个 remove( ) 调 用 所 获得 的 锁 之 间 没 有 重合 。 图 9-9 说 明了 “交叉 手 ” 上 锁 方 
式 是 如 何 避 免 这 个 问题 的 。 





















1 public boolean add(T item) { 
2 int key = item.hashCode(); 
3 head. lock(); 
4 Node pred = head; 
5 try { 
6 Node curr = pred.next; 
7 curr. ]ock(); 
8 try { 
9 while (curr.key < key) { 
10 pred.unlock(); 
iy pred = curr; 
12 curr = curr.next; 
13 curr. lock(); 
14 
15 if (curr.key == key) { 
16 return false; 
17 
18 Node newNode = new Node(item); 
19 newNode.next = curr; 
20 pred.next = newNode; 
21 return true; 
22 } finally { 
23 curr.unlock(); 
24 
25 } finally { 
pred.unlock(); 









图 9-6 FineList 类 : add( ) 方 法 使 用 “交叉 手 ” 上 锁 来 遍历 链表 。 在 返回 之 前 ，fina11y 块 释放 锁 


为 了 保证 演进 ， 所 有 的 方法 应 以 相同 的 次 序 获取 锁 ， 从 head 开 始 ， 顺 着 next 引 用 一 直到 
tail1。 如 图 9-10 所 示 ， 如 果 不 同 的 方法 调用 以 不 同 的 次 序 获得 锁 将 导致 死 锁 。 在 这 个 例子 中 ， 
试图 增加 a 的 线程 4 已 经 锁 住 了 5b 并 试图 去 锁 住 head， 同 时 试图 删除 5 的 线程 8 已 锁 住 了 head 并 
试图 锁 住 2。 显 然 ， 这 些 方法 调用 将 永远 不 会 结束 。 避 免 死 锁 是 使 用 锁 编 程 的 主要 挑战 之 一 。 

FineList 算 法 保持 不 变 式 说 明 : 哨兵 绝 不 会 增加 或 删除 ， 结 点 按 key 值 排序 且 没 有 重复 。 
抽象 映射 和 粗 粒度 链表 一 样 : 当 且 仅 当 一 个 数据 元 素 的 结 点 可 达 ， 该 数据 元 素 属于 集合 。 

add(a) 调 用 的 可 线性 化 点 依赖 于 该 调用 是 否 成 功 ( 即 a 是 否 已 在 链表 中 )。 当 具有 下 一 个 
更 大 的 key 值 的 结 点 被 锁定 时 (第 7 行 或 第 13 行 )， 一 个 成 功 的 调用 (a 不 在 链表 中 ) 是 可 线性 
化 的 。 

remove(a) 调 用 也 存在 同样 的 区 别 。 当 前 驱 结 点 被 锁定 时 (第 36 行 或 第 42 行 )， 一 个 成 功 
的 调用 (a 已 存在 ) 是 可 线性 化 的 。 当 具有 下 一 个 更 大 的 key 值 的 结 点 被 锁定 时 (第 36 行 或 第 
42 行 )， 一 个 成 功 的 调用 (a 不 存在 ) 是 可 线性 化 的 。 当 包含 a 的 结 点 被 锁定 时 ， 一 个 不 成 功 的 
调用 (a 已 存在 ) 是 可 线性 化 的 。 

确定 contains() 的 可 线性 化 点 留 作 习题 。 








29 public boolean remove(T item) { 
30 Node pred = null, curr 


null; 


31 int key = item.hashCode(); 


32 head. lock(); 


33 try { 

34 pred = head; 

35 curr = pred.next; 

36 curr. lock(); 

37 try { 

38 while (curr.key < key) { 
39 pred.unlock(); 

40 pred = curr; 

41 curr = curr.next; 

42 curr. lock(); 


} 
if (curr.key == key) { 


pred.next = curr.next; 


return true; 


return false; 
} finally { 


curr.unlock(); 
} 
finally { 
pred.unlock(); 





: 锁 的 作用 


图 9-7 FineList 类 : remove() 方 法 在 删除 结 点 之 前 将 欲 删除 结 点 及 其 前 驱 都 锁定 
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图 9-8 FineList 类 : 为 什么 remove() 必 须 获 得 两 个 锁 。 线 程 4 准 备 删除 链表 中 的 第 一 个 结 
点 a&， 同 时 线程 了 准备 删除 上， 其 中 ao 指 向 2。 假 设 4 锁定 head，B 锁 定 w。 然 后 4 设置 
head.next 指 向 bp， 而 8B 设置 a 的 next 域 指向 c。 这 样 做 的 效果 是 删除 a， 但 没有 删除 5 


图 9-9 
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FineList 类 : 交叉 手 上 锁 能 保证 当 并 发 的 remove( ) 调 用 试图 删除 相 邻 结 点 时 ， 它 
们 获得 冲突 锁 。 线 程 4 准备 删除 链表 中 的 第 一 个 结 点 4， 同 时 线程 3 准备 删除 2， 其 
中 a 指向 bp。 由 于 A 必须 同时 锁 住 head 和 a， 而 8 必须 锁 住 4z 和 5， 从 而 保证 它们 在 a 上 
冲突 ， 迫 使 一 个 调用 等 待 男 一 个 
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图 9-10 FineList 类 : 如 果 remove() 和 add() 方 法 以 相反 的 次 序 获 取 锁 ， 则 发 生死 锁 。 线 程 ， 
4 准备 插入 a， 它 首先 锁 住 »， 然 后 锁 住 head。 线 程 B 准 备 删除 ?>， 它 首先 锁 住 head， 
然后 锁 住 2。 每 个 线程 都 持 有 对 方 等 待 获取 的 锁 ， 结 果 是 二 者 都 不 能 继续 前 进 


FineList 算 法 是 无 饥饿 的 ， 但 对 这 个 特性 的 证 明 比 在 粗 粒度 情形 要 难 。 假 设 每 一 个 锁 都 
是 无 饥饿 的 。 由 于 所 有 的 方法 以 相同 的 顺 着 链表 的 次 序 获取 锁 ， 所 以 不 会 发 生死 锁 。 如 果 线 
程 A 试图 锁定 head 并 最 终 成 功 ， 从 这 个 点 开始 ， 因 为 没有 死 锁 发 生 ， 由 A 之 前 的 其 他 线程 获取 
的 链表 中 的 锁 最 终 都 会 被 释放 ，4 将 成 功 地 锁 住 preds 和 curraA。 


9.6 乐观 同步 


虽然 细 粒 度 锁 是 对 单一 粗 粒度 锁 的 一 种 改进 ， 但 它 仍 可 能 出 现 很 长 的 获取 锁 和 释放 锁 的 
序列 。 而 且 ， 访 问 链表 中 不 同 部 分 的 线程 仍然 可 能 相互 阻塞 。 例 如 ， 一 个 正在 删除 链表 中 第 
二 个 元 素 的 线程 将 会 阻塞 所 有 试图 查找 后 继 结 点 的 线程 。 

减 小 同步 代价 的 一 种 方法 就 是 利用 机 遇 : 不 需 获 得 锁 就 可 以 进行 查找 ， 对 找到 的 结 点 加 
锁 ， 然 后 确认 锁 住 的 结 点 是 正确 的 。 如 果 一 个 同步 冲突 导致 结 点 被 错误 地 锁定 ， 则 释放 这 些 
锁 并 重新 开始 。 在 正常 情况 下 ， 这 样 的 冲突 比较 少 ， 这 也 是 称 这 种 方法 为 乐观 同步 的 原因 。 

在 图 9-11 中 ， 线 程 4 执 行 了 一 个 乐观 的 add(o)。 在 不 获取 任何 锁 的 情况 下 遍历 链表 (第 6 行 
到 第 8 行 )。 事 实 上 ， 该 线程 完全 不 管 锁 。 当 currs 的 key 值 大 于 或 等 于 a 的 key 值 时 ， 它 停止 查 
找 。 然 后 锁 住 preds 和 curr。， 并 调用 validate( ) 以 确认 pred 为 可 达 的 且 它 的 next 域 仍 指向 
curra。 如 果 验 证 成 功 ， 则 线程 A4 和 以 前 一 样 继续 前 进 : 若 currs 的 key 大 于 a， 线 程 A4 则 在 preda 
和 currs 之 间 增 加 一 个 值 为 4 的 新 结 点 ， 然 后 返回 true。 否 则 返回 false。remove( ) 和 contains() 
方法 (图 9-12 和 图 9-13) 以 同样 的 方式 进行 操作 ,遍历 链表 时 无 需 上 锁 ， 然 后 锁 住 目标 结 点 
并 验证 它们 仍 在 链表 中 。 

validate( ) 的 代码 如 图 9-14 所 示 。 下 面 这 个 故事 带 给 我 们 一 些 启示 : 

一 个 旅行 者 在 国外 的 一 个 城镇 搭乘 一 辆 出 租车 。 出 租车 司机 加 速 闻 过 一 个 红 灯 ， 这 

At BRAT A NRHP: “AA AH?) ”司机 回答 道 :“ 别 担心 ， 我 是 个 老手 。” 司 机 又 

加 速 闯 过 了 几 个 红 灯 。 这 位 旅行 者 几乎 乔 江 ， 再 一 次 焦急 地 抱怨 。 司 机 回答 说 :“ 放 松 ， 

再 放松 ， 是 一 个 老手 在 开车 。” 突 然 ， 绿 灯亮 了 ， 司 机 急忙 刊 车 ， 出 租车 打转 停 住 。 旅 行 

者 跳出 出 租车 ， 大 喊 着 问 道 :“ 为 什么 在 绿灯 亮 时 停车 ? ”司机 回答 说 :“ 太 危险 了 ， 可 

能 是 另 一 个 老手 正在 穿 过 路 口 。 

遍历 一 个 动态 变化 的 基于 锁 的 数据 结构 而 又 不 用 锁 需 要 慎重 地 考虑 (还 有 其 他 的 老手 线 


程 也 在 那里 )。 必 须要 使 用 某 种 形式 的 验证 并 保证 无 干扰 性 。 


‘OOONROND- 


图 9-11 


public boolean add(T item) { 
int key = item.hashCode(); 
while (true) { 
Node pred = head; 
Node curr = pred.next; 
while (curr.key < key) { 
pred = curr; curr = curr.next; 
} 
pred.lock(); curr.lock(); 
try { 
if (validate(pred, curr)) { 
if (curr.key == key) { 
return false; 
} else { 
Node node 


= new Node(item); 
node.next = curr; 

pred.next = node; 

return true; 


} 


} 
} finally { 
pred.unlock(); curr.untock(); 








26 
27 
28 





图 9-12 OptimisticList2&: remove( ) 方 法 在 遍历 链表 时 不 需要 锁 ， 
除 结 点 之 前 进行 验 


public boolean remove(T item) { 
int key = item.hashCode(); 
while (true) { 
Node pred = head; 
Node curr = pred.next; 
while (curr.key < key) { 
pred = curr; curr = curr.next; 
} 
pred.lock(); curr.lock(); 
try { 
if (validate(pred, curr)) { 
if (curr. key == key) { 
pred.next = curr.next; 
return true; 
} else { 
return false; 
} 
} 
} finally { 
pred.unlock(); curr.unlock(); 
} 
} 
} 


vw u 
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链表 : 锁 的 作用 


0ptimisticList 类 : add( ) 方 法 在 遍历 链表 时 不 需要 锁 ， 然 后 获得 锁 ， 并 在 增加 
结 点 之 前 进行 验证 


然后 获得 锁 ， 并 在 删 
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public boolean contains(T item) { 
int key = item.hashCode(); 
while (true) { 
Node pred = this.head; // sentinel node; 
Node curr = pred.next; 
while (curr.key < key) { 
pred = curr; curr = curr.next; 


pred.lock(); curr.lock(); 
try { 
if (validate(pred, curr)) { 
return (curr.key == key); 
} 
} finally { // always unlock 
pred.unlock(); curr.unlock(); 











图 9-13 OptimisticList 类 : contains() 方 法 在 查找 结 点 时 不 需要 锁 ， 然 后 获得 锁 ， 并 验 








证 结 点 是 否 在 链表 中 
67 private boolean validate(Node pred, Node curr) { | 
68 Node node = head; 
69 while (node.key <= pred.key) { 
70 if (node == pred) 
71 return pred.next == curr; 
72 node = node.next; 
73 } 
74 return false; 
75 

















图 9-14 0ptimisticList 类 : 验证 检查 pred, 指 向 curr, 及 pred, 是 可 达 的 


如 图 9-15 所 示 ， 由 于 指向 preds 的 引用 或 从 preds 指 向 currs 的 引用 在 它们 最 后 被 线程 A 读 
和 线程 4 获得 锁 的 这 一 段 时 间 内 ， 有 可 能 已 经 发 生变 化 ， 所 以 验证 是 必需 的 。 在 某 些 特殊 情况 
下 ， 一 个 线程 有 可 能 正在 遍历 已 经 从 链表 中 删除 的 部 分 。 例 如 ， 在 线 竹 A 正 在 遍历 curr, 的 时 
候 ， 结 点 currs 以 及 currs 和 a (包括 a) 之 间 的 所 有 结 点 有 可 能 被 删除 。 而 线程 4 发 现 curr, 指 
向 结 点 a， 若 没有 验证 ， 则 即使 4 已 经 不 在 链表 中 也 会 “成 功 地 ”删除 结 点 a。validate( ) 调 用 
将 检查 若 结 点 a 不 在 链表 中 ， 则 由 调用 者 重启 该 方法 。 


preda 











图 9-15 OptimisticList 类 : 为 什么 验证 是 必需 的 。 线 程 4 试 图 删除 结 点 a。 在 遍历 链表 的 
同时 ，currs 以 及 currs 和 a (包括 a) 之 间 的 所 有 结 点 有 可 能 被 删除 。 在 这 种 情形 
下 ,线程 A 有 可 能 继续 前 进 到 达 currs 指 向 的 4， 若 没有 验证 ， 即 使 4 已 经 不 在 链表 
中 ， 也 会 成 功 地 删除 4a。 需要 验证 来 确定 a 是 否 是 可 达 的 
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由 于 不 再 使 用 能 保护 并 发 修改 的 锁 ， 所 以 每 个 方法 调用 都 有 可 能 遍历 那些 已 被 删除 的 结 
点 。 然 而 ， 由 于 无 干扰 意味 着 一 旦 一 个 结 点 从 链表 中 删除 ， 它 的 next 域 的 值 是 不 会 改变 的 ， 
所 以 按照 这 种 链接 的 序列 ， 最 终 仍 可 能 回 到 链表 中 。 而 且 ， 无 干扰 又 依赖 于 垃圾 回收 来 保证 
正在 被 遍历 的 结 点 不 能 重用 。 

即使 每 一 个 结 点 锁 都 是 无 饥饿 的 ，0ptimisticList 算 法 也 不 是 无 饥饿 的 。 如 果 不 断 地 添 
加 和 删除 新 结 点 ， 那 么 一 个 线程 就 会 被 永远 地 阻塞 (见习 题 107)。 尽 管 如 此 ， 由 于 饥饿 现象 
很 少 发 生 ， 所 以 仍 期 望 该 算法 有 很 好 的 实际 效果 。 


97 情 性 同步 


当 不 用 锁 遍历 两 次 链表 的 代价 比 使 用 锁 遍 历 一 次 链表 的 代价 小 许多 时 ，0ptimisticList 
实现 的 效果 非常 好 。 这 种 算法 的 缺点 之 一 就 是 contains( ) 方 法 在 遍历 时 需要 获得 锁 ， 这 一 点 
并 不 令 人 满意 ， 其 原因 在 于 对 contains() 的 调用 要 比 对 其 他 方法 的 调用 频繁 得 多 。 

下 面 对 该 算法 进行 改进 ， 使 得 contains() 调 用 是 无 等 待 的 ， 同 时 add() 和 remove( ) 方 
法 即使 在 被 阻塞 的 情况 下 也 只 需 遍 历 一 次 链表 。 对 每 个 结 点 增加 一 个 布尔 类 型 的 mnarked 域 ， 
用 于 说 明 该 结 点 是 否 在 集合 中 。 现 在 ， 遍 历 不 再 需要 锁定 目标 结 点 ， 也 没有 必要 通过 重新 遍 
历 整个 链表 来 验证 结 点 是 否 可 达 。 而 是 由 算法 维护 一 个 不 变 式 : 所 有 未 被 标记 的 结 点 必 是 可 
达 的 。 如 果 遍 历 线程 没有 找到 结 点 或 是 发 现 结 点 已 被 标记 ， 则 该 元 素 值 不 在 集合 中 。 总 之 ， 
contains() 只 需要 一 次 无 等 待 的 遍历 。 为 了 在 链表 中 增加 一 个 元 素 ，add( ) 首 先 遍 历 链表 ， 
锁 住 目标 结 点 的 前 驱 结 点 ， 最 后 插入 该 结 点 。remove( ) 方 法 是 情 性 的 ， 分 两 步 进行 ， 首先 
标记 目标 结 点 ， 逻 辑 上 删除 该 结 点 ， 然 后 ， 重 新 指定 其 前 驱 结 点 的 next 域 ,物理 上 删除 该 
结 点 。 











1 private boolean validate(Node pred, Node curr) { 
2 return !pred.marked && !curr.marked && pred.next == curr; 
3 








图 9-16 LazyList 类 : 验证 检查 pred 和 curr 结 点 都 没有 被 逻辑 删除 ， 且 pred 指 向 curr 


更 详细 地 说 ， 所 有 方法 不 用 锁 就 可 以 遍历 链表 (可 能 是 逻辑 上 和 物理 上 删除 的 结 点 ) 。 
add( ) 和 remove( ) 方 法 如 以 前 一 样 锁 住 preds 和 currs 结 点 (图 9-16 和 图 9-17)， 然 而 验证 不 再 
需要 重新 遍历 整个 链表 (图 9-18) 来 确定 一 个 结 点 是 否 在 集合 中 。 相 反 ， 由 于 结 点 在 被 物理 
删除 以 前 必须 要 作 标 记 ， 所 以 验证 只 需 确 认 curr, 还 没有 被 标记 。 然 而 ， 如 图 9-19 所 示 ， 对 于 
插入 和 删除 ， 由 于 preds 结 点 是 被 修改 的 结 点， 所 以 必须 验证 preds 本 身 没有 被 标记 且 它 仍 指 
向 currs。 逻 辑 删 除 需 要 对 抽象 映射 做 一 点 修改 当 且 仅 当 一 个 数据 元 素 被 一 个 未 标记 的 可 达 
结 点 指向 时 ， 该 数据 元 素 在 集合 中 。 需 要 注意 的 是 ， 可 达 结 点 的 路 径 中 可 能 包含 已 标记 的 结 
点 。 读 者 应 该 验证 任何 未 被 标记 的 可 达 结 点 仍然 是 可 达 的 ， 即 使 它 的 前 驱 已 被 逻辑 或 物理 地 
删除 。 正 如 在 0ptimisticList 算 法 中 一 样 ，add( ) 和 remove( ) 方 法 不 是 无 饥 俄 的 ， 因 为 链表 
遍历 有 可 能 会 被 正在 进行 的 修改 任意 延迟 。 
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1 public boolean add(T item) { 
2 int key = item.hashCode(); 
3 while (true) { 
4 Node pred = head; 
5 Node curr = head.next; 
6 while (curr.key < key) { 
7 pred = curr; curr = curr.next; 
8 } 
9 pred. lock(); 
10 try { 
11 curr.lock(); 
12 try { 
13 if (validate(pred, curr)) { 
14 if (curr.key == key) { 
15 return false; 
16 } else { 
17 Node node = new Node(item); 
18 node.next = curr; 
19 pred.next = node; 
20 return true; 
21 } 
22 } 
23 } finally { 
24 curr.unlock(); 
25 } 
26 } finally { 
27 pred.unlock(); 
28 } 
29 } 
30 } 
图 9-17 LazyList 类 : add() 方 法 
1 public boolean remove(T item) { 
2 int key = item.hashCode(); 
3 while (true) { 
4 Node pred = head; 
5 Node curr = head.next; 
6 while (curr.key < key) { 
7 pred = curr; curr = curr.next; 
8 } 
9 pred.lock(); 
10 try { 
11 curr.lock(); 
12 try { 
13 if (validate(pred, curr)) { 
14 if (curr.key != key) { 
15 return false; 
16 } else { 
17 curr.marked = true; 
18 pred.next = curr.next; 
19 return true; 
20 } 
21 } 
22 } finally { 
23 curr.unlock(); 
24 } 
25 } finally { 
26 pred.unlock(); 
27 } 
28 } 
29 } 








图 9-18 LazyList 类 : remove ) 方 法 分 两 步 来 删除 结 点 : 逻辑 删除 和 物理 删除 
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public boolean contains(T item) { 
int key = item.hashCode(); 
Node curr = head; 
while (curr.key < key) 


curr = curr.next; 
return curr.key == key && !curr.marked; 


} 





图 9-19 LazyList2k: contains() 方 法 


contains() 方 法 (图 9-20) 不 用 锁 并 遍历 一 次 链表 ， 如 果 被 查找 的 结 点 已 存在 且 未 标记 
则 返回 true， 否 则 返回 false。 所 以 该 方法 是 无 等 待 的 。9 已 标记 结 点 的 值 可 以 忽略 。 遍 历 每 次 
都 到 达 一 个 新 结 点 ， 该 新 结 点 的 key 值 总 是 比 先前 结 点 的 key 值 大 ， 即 使 该 结 点 已 被 逻辑 删除 
也 是 如 此 。 












































图 9-20 LazyList 类 ;为 什么 需要 验证 。 在 中， 线程 4 试图 删除 结 点 a。 在 它 到 达 preds 指 向 
currs 的 地 方 且 还 未 获得 这 两 个 结 点 的 锁 之 前 ， 结 点 preds 被 逻辑 和 物理 地 删除 了 。 在 
线程 A 获得 锁 之 后 ， 验 证 将 检测 这 个 问题 。 在 b 中 ，A 试 图 删除 结 点 a。 在 它 到 达 pred， 
指向 currs 的 地 方 且 还 未 获得 这 两 个 结 点 的 锁 之 前 ， 有 一 个 新 结 点 被 插入 到 predA 和 
currs 之 间 。 在 A 获得 锁 之 后 ， 即 使 preds 或 是 currs 都 没有 被 标记 ， 验 证 也 会 检测 到 
pred4 与 currs 是 不 同 的 结 点 ， 所 以 A 的 调用 将 被 重启 


逻辑 删除 需要 对 抽象 映射 做 一 点 修改 : 当 且 仅 当 一 个 元 素 被 一 个 未 标记 的 可 达 结 点 指向 
时 ， 访 元素 在 集合 中 。 注 意 ， 可 达 结 点 的 路 径 中 可 能 包含 已 标记 的 结 点 。 链 表 的 物理 修改 和 
遍历 与 0ptimisticList 类 中 完全 一 样 ， 即 使 未 被 标记 的 结 点 的 前 驱 被 物理 或 逻辑 地 删除 了 ， 
读者 仍然 需要 验证 未 被 标记 的 结 点 是 可 达 的 。 

LazyList 的 add( ) 和 不 成 功 的 remove( ) 调 用 的 可 线性 化 点 与 0ptimisticList 完 全 一 样 。 
当 标 记 被 设置 时 (第 17 行 )， 一 个 成 功 的 remove( ) 调 用 是 可 线性 化 的 。 当 找到 未 标记 的 匹配 结 
点 时 ， 一 个 成 功 的 contaions( ) 调 用 是 可 线性 化 的 。 

为 了 理解 如 何 线性 化 一 个 不 成 功 的 contains( ) 调 用 ,考虑 图 9-21 所 描述 的 场景 。 在 图 a 中 ， 








日 ”对 于 一 个 给 定 的 遍历 线程 ， 表 中 已 被 该 线程 遍历 的 部 分 不 会 因 新 Key 的 插入 而 无 限 增 大 ， 其 原因 在 于 key 的 
大 小 是 有 限 的 。 
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结 点 a 被 标记 为 已 删除 (设置 其 marked 域 )， 线 程 4 试 图 查找 与 4 的 key 值 相 一 致 的 结 点 。 当 线程 
A 正在 遍历 链表 时 ，currs 以 及 currs 和 a (包括 a) 之 间 的 所 有 结 点 被 逻辑 或 物理 地 删除 。 线 程 
A 仍然 会 继续 前 进 到 达 currs 指 向 a 的 地 方 ， 并 验证 a 是 被 标记 的 且 不 在 抽象 集合 中 。 该 调用 在 
这 个 点 可 以 被 线性 化 。 


preda 

















curr 
b) A 


图 9-21 LazyList 类 : 线性 化 一 个 不 成 功 的 contains() 调 用 。 黑 色 结 点 代表 实际 在 链表 中 的 
结 点 ， 而 白色 结 点 则 是 要 被 物理 删除 的 结 点 。 在 图 a 中 ， 线 程 4 正在 遍历 链表 ， 而 并 发 
执行 的 remove( ) 调 用 则 要 断 开 由 curr 指 向 的 子 链表 。 由 于 数据 值 等 于 a 和 4b 的 结 点 仍 是 
可 达 的 ， 所 以 一 个 结 点 是 否 真正 在 链表 中 只 依赖 于 该 结 点 是 否 已 被 标记 。 因 此 ， 线 程 
A 可 以 在 发 现 a 被 标记 且 不 再 处 于 抽象 集 的 时 间 点 被 线性 化 。 再 来 考虑 图 b 所 示 的 情形 。 
线程 4 正在 遍历 链表 中 已 标记 结 点 a 的 前 面部 分 ， 另 一 个 线程 则 欲 增加 一 个 key 为 的 新 
结 点 。 若 在 线程 4 发 现 已 标记 结 点 a 的 时 间 点 上 线性 化 4 的 不 成 功 的 contains( ) 调 用 ， 
则 可 能 出 错 ， 因 为 在 这 个 时 间 点 之 前 key 值 为 4 的 新 结 点 有 可 能 已 被 插入 到 链表 中 


现在 考虑 图 b 描 述 的 情景 。A 正 在 遍历 链表 中 已 删 除 的 a 前 面 的 部 分 ， 在 它 到 达 被 删除 结 点 
a 之 前 ， 男 一 个 线程 将 一 个 具有 key 值 为 的 新 结 点 插入 到 链表 的 可 达 部 分 。 如 果 在 这 个 点 线性 
化 线程 4 的 不 成 功 的 contains( ) 方 法 ， 将 发 现 被 标记 的 结 点 a 是 错误 的 ， 因 为 这 个 点 出 现在 具 
有 key 值 为 a 的 新 结 点 被 插入 到 链表 以 后 。 因 此 ， 对 于 一 个 不 成 功 的 contains() 调 用 ， 要 在 它 
的 执行 过 程 中 的 以 下 几 个 时 间 点 之 前 的 时 间 段 内 来 线性 化 这 个 调用 : (1) 一 个 被 删除 的 匹配 
结 点 ， 或 者 一 个 key 值 大 于 要 查找 结 点 的 key 值 的 结 点 被 查找 到 ， (2) 一 个 新 的 匹配 结 点 被 插 
入 到 链表 之 前 的 瞬间 。 注 意 ， 在 执行 过 程 中 要 保证 第 二 个 条 件 成 立 ， 这 是 因为 具有 相同 key 值 
的 新 结 点 的 插入 必须 发 生 在 contains( ) 方 法 开始 ， 或 者 contains( ) 方 法 已 经 找到 那个 数据 元 
素 之 后 。 正 如 所 见 的 ， 不 成 功 的 contains( ) 调 用 的 可 线性 化 点 是 由 执行 中 事件 的 次 序 所 决定 
的 ， 并 不 是 一 个 在 方法 代码 中 可 以 预先 确定 的 点 。 

情 性 同步 的 优点 之 一 就 是 能 够 将 类 似 于 设置 一 个 flag 这 样 的 逻辑 操作 与 类 似 于 删除 结 点 的 
链接 这 种 对 结构 的 物理 改变 相 分 开 。 这 里 给 出 的 实例 比较 简单 ， 其 原因 在 于 一 个 时 刻 只 允许 
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解除 一 个 结 点 的 链接 。 然 而 ， 通 常情 况 下 ， 延 迟 操作 可 以 是 批 处 理 方式 进行 的 ， 且 在 某 个 方 
便 的 时 候 再 懒惰 地 进行 处 理 ， 从 而 降低 了 对 结构 进行 物理 修改 的 整体 破裂 性 。 

情 性 同步 的 主要 缺点 是 add( ) 和 remove( ) 调 用 是 阻塞 的 : 如 果 一 个 线程 延迟 ， 那 么 其 他 线 
程 也 将 延迟 。 


9.8 非 阻塞 同步 


前 述 已 知 采 用 在 物理 删除 链表 中 的 某 个 结 点 之 前 将 该 结 点 标记 为 逻辑 删除 的 思想 有 时 是 
非常 有 益 的 。 现 在 来 研究 如 何 扩展 这 种 思想 以 完全 消除 锁 ， 从 而 使 add( )、remove() 和 
contains() 这 三 个 方法 都 变 为 非 阻 塞 的 。( 前 两 个 方法 是 无 锁 的 ， 最 后 一 个 方法 是 无 等 待 的 。) 
一 种 很 自然 的 方法 就 是 使 用 compareAndSet ( ) 来 改变 next 域 。 不 幸 的 是 ， 这 种 方法 并 不 适用 。 
图 9-22 的 后 一 部 分 描述 了 一 个 线程 4 试图 在 结 点 preds 和 currs 之 间 揪 入 结 点 a。 它 首先 设置 < 的 
next 域 指向 curr。， 然 后 调用 compareAndSet( ) 将 preds 的 next 域 设 为 指向 a。 如 果 B 要 将 currs 
从 链表 中 删除 ， 它 可 以 调用 compareAndSet() 让 preds 的 next 域 指向 currs 的 后 继 结 点 。 不 难看 
出 ， 如 果 这 两 个 线程 试图 并 发 地 删除 这 两 个 相 邻 的 结 点 ， 那 么 结果 是 b 没 有 被 删除 。 关 于 并 发 
的 add( ) 和 remove( ) 方 法 的 类 似 情 形 则 在 图 9-22 的 前 一 部 分 中 进行 了 描述 。 

删除 a 























图 9-22 LazyList 类 : 为 什么 标记 域 和 3 引用 域 必须 原子 地 修改 。 在 中， 线程 A 准备 删除 链表 中 
的 第 一 个 结 点 a， 同 时 线程 B 准 备 插入 b。 假 设 A 对 head.next 调 用 compareAndSet()， 同 
时 B 对 a.next 调 用 compareAndSet( )。 其 结果 是 a 被 正确 地 删除 ， 而 5 却 没 有 加 入 到 链表 
中 。 在 b 中 ， 线 程 A 准 备 删除 链表 中 的 第 一 个 结 点 a。， 同 时 线程 准备 删除 a 的 后 继 结 点 b。 
假设 A 对 head .next 调 用 compareAndSet( )， 同 时 8B 对 a.next 调 用 compareAndSet()。 其 
结果 是 a 被 删除 而 b 未 被 删除 


显然 ， 需 要 一 种 方式 来 确保 在 结 点 被 逻辑 或 物理 删除 后 ， 该 结 点 的 域 不 能 被 修改 。 所 采 
用 的 方法 就 是 将 结 点 的 next 域 和 marked 域 看 作 是 单个 的 原子 单位 ， 当 marked 域 为 rue 时 ， 对 
next 域 的 任何 修改 都 将 失败 。 








编程 提示 9.8.1 AtomicMarkableReference<T> 是 java.util.concurrent.atomic 包 
中 的 一 个 对 象 ， 它 将 一 个 对 类 型 7 的 对 象 的 引用 和 一 个 布尔 型 mark 封 装 在 一 起 。 这 些 成 员 
能 够 单个 或 一 起 被 原子 地 更 新 。 例 如 ，compareAndSet( ) 方 法 检测 期 望 的 引用 和 标记 值 ， 











154 第 二 部 分 实 B 











如 果 两 者 都 成 立 ， 则 用 更 新 后 的 引用 和 标记 值 来 蔡 换 它们 。 人 简单 来 说 ，attemptMark( ) 方 
法 检测 一 个 期 望 的 引用 值 ， 如 果 测 试 成 功 ， 则 用 新 的 标记 值 来 替换 它 。get() 方 法 的 接口 
与 众 不 同 : 它 返回 对 象 的 引用 值 并 将 标记 值 存 入 一 个 布尔 数组 的 参数 中 。 图 9-23 列 出 了 这 
些 方法 的 接口 。 








1 public boolean compareAndSet(T expectedReference, 
2 T newReference, 

3 boolean expectedMark, 
4 boolean newMark); 

5 public boolean attemptMark(T expectedReference, 

6 boolean newMark); 

7 public T get(boolean[] marked); 











图 9-23 AtomicMarkableReference<T> 的 部 分 方法 : compareAndSet() 方 法 测试 并 更 新 标记 域 
和 引用 域 ， 如 果 引 用 域 为 期 望 的 值 ，attemptMark() 方 法 则 更 新 标记 域 。get() 方 法 
返回 封装 的 引用 并 将 标记 存 人 参数 数组 的 0 号 元 素 中 


在 C 或 C++ 中 ， 可 以 通过 使 用 位 操作 从 一 个 字 中 取出 标记 和 指针 ， 从 指针 中 “ 窗 取 ”一 
个 位 的 方式 ， 来 有 效 地 提供 这 种 功能 。 在 Java 中 ， 由 于 不 能 直接 对 指针 进行 操作 ， 所 以 这 
| 种 功能 必须 由 库 来 提供 。 


正如 编程 提示 9.8.1 中 所 描述 的 ，AtomicMarkableReference<T> 对 象 将 指向 类 型 T 的 对 象 
的 引用 和 布尔 量 mark 封 装 在 一 起 。 这 些 域 可 以 一 起 或 单个 地 被 原子 更 新 。 

可 以 让 每 个 结 点 的 next 域 为 一 个 AtomicMarkableReference<Node>。 线 程 4 通 过 设置 结 点 
next 域 中 的 标记 位 来 逻辑 地 删除 curr4。，， 和 其 他 正在 执行 add( ) 或 remove( ) 的 线程 共享 物理 删 
BR: 当 每 个 线程 遍历 链表 的 时 候 ， 通 过 物理 删除 (使 用 compareAndSet()) 所 有 被 标记 的 结 
点 来 清理 链表 。 换 句 话 说， 执行 add( ) 和 remove( ) 的 线程 不 需要 遍历 被 标记 的 结 点 ， 它 们 在 继 
续 执 行 以 前 删除 了 这 些 结 点 。contains() 方 法 和 在 LazyList 算 法 中 一 样 ， 遍 历 所 有 被 标记 和 
未 标记 的 结 点 ， 基 于 每 个 元 素 的 key 和 mark 检 测 元 素 是 否 在 集合 中 。 

现在 来 考虑 一 种 与 LazyList 算 法 不 同 的 LockFreeList 算 法 的 设计 策略 。 为 什么 正在 增加 
和 删除 结 点 的 线程 从 不 需要 遍历 被 标记 的 结 点 ， 而 是 当 遇 到 它们 时 物理 地 删除 这 些 被 标记 的 
结 点 ? 假设 线程 4 遍历 被 标记 的 结 点 而 不 是 物理 地 删除 它们 ， 同 样 在 逻辑 删除 currs 以 后 ， 打 
算 物 理 删 除 这 个 结 点 。 这 可 以 通过 调用 compareAndSet( ) 重 新 设置 preds 的 next 域 ， 同时 确认 
pred4 没 有 被 标记 并 且 指 向 currs 来 实现 。 难 点 在 于 此 时 A 并 没有 持 有 preds 和 curr4 上 的 锁 ， 其 
他 的 线程 可 以 在 compareAndSet( ) 调 用 之 前 插入 新 结 点 或 删除 pred,，。 

考虑 由 男 一 个 线程 标记 preds 的 情形 。 如 图 9-22 所 示 ， 由 于 不 能 安全 地 重 设 被 标记 结 点 的 
next 域 ， 所 以 4 将 通过 遍历 链表 来 重新 执行 这 个 物理 删除 。 然 而 此 时 ，A 要 在 删除 currs 之 前 不 
得 不 物理 删除 preds。 更 糟 的 是 ， 如 果 存 在 一 系列 在 preds 前 面 的 被 逻辑 删除 的 结 点 ， 那 么 4 在 
删除 currs 本 身 之 前 ， 必 须 一 个 一 个 地 将 它们 全 部 删除 。 

这 个 例子 说 明了 为 什么 add( ) 和 remove( ) 调 用 不 需 遍 历 被 标记 的 结 点 : 当 它 们 到 达 要 被 修 
改 的 结 点 时 ， 有 可 能 需要 重新 遍历 链表 去 删除 原来 已 被 标记 的 结 点 。 所 以 ， 选 择 让 add( ) 和 
remove( ) 在 到 达 目 标 结 点 的 路 径 上 物理 删除 所 有 被 标记 的 结 点 。 相 反 ，contains( ) 方 法 不 做 
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许 它 遍 历 所 有 被 标记 和 未 标记 的 结 点 。 

为 了 给 出 LockFreeList 算 法 ， 通 过 创建 一 个 内 部 的 Window 类 来 将 add( ) 和 remove( ) 方 法 
的 公共 部 分 分 离 出 来 。 如 图 9-24 所 示 ，Window 对 象 是 一 种 具有 pred 和 curr 域 的 结构 。Window 
类 的 find( ) 方 法 以 一 个 head 结 点 和 一 个 key 值 4 为 参数 ， 查 找 并 让 pred 指 向 具有 比 a 小 的 最 大 
key 值 的 结 点 ， 让 curr 指 向 具有 大 于 等 于 a 的 最 小 key 值 的 结 点 。 当 线程 4 遍历 链表 时 ， 每 当 它 
向 前 移动 ， 就 检查 该 结 点 是 否 被 标记 (第 16 行 )。 如 果 被 标记 ， 则 调用 compareAndSet(), id 
过 置 preds 的 next 域 指向 currs 的 next 域 物理 删除 这 个 结 点 。 这 个 调用 既 要 检查 域 的 引用 又 要 
检查 布尔 型 的 标记 值 ， 如 果 任 意 一 个 值 发 生 了 变化 都 将 会 失败 。 一 个 并 发 线程 可 以 通过 逻辑 
删除 pred 来 改变 标记 值 ， 或 是 通过 物理 删除 curr 来 改变 引用 值 。 如 果 调 用 失败 ，4 将 从 头 结 
点 开始 重新 遍历 链表 。 和 否则， 继续 遍历 。 








1 class Window { 

2 public Node pred, curr; 

3 Window(Node myPred, Node myCurr) { 

4 pred = myPred; curr = myCurr; 

5 

6 3} 

7 public Window find(Node head, int key) { 
8 Node pred = null, curr = null, succ = null; 
9 boolean[] marked = {false}; 

10 boolean snip; 

11 retry: while (true) { 

12 pred = head; 

13 curr = pred.next.getReference(); 

14 while (true) { 

15 succ = curr.next.get (marked); 

16 while (marked[0]) { 

17 snip = pred.next.compareAndSet(curr, succ, false, false); 
18 if (!snip) continue retry; 

19 curr = Succ; 

20 succ = curr.next.get (marked); 
21 } 
22 if (curr.key >= key) 
23 return new Window(pred, curr); 
24 pred = curr; 
25 curr = succ; 

26 } 

27 } 

28 } 








图 9-24 Window: find( ) 方 法 返回 包含 结 点 及 其 key 任 意 一 边 的 结构 ， 当 它 遇 到 标记 的 结 点 
时 则 删除 它们 


LockFreeList 算 法 采用 与 LazyList 算 法 相同 的 抽象 映射 : 当 且 仅 当 一 个 元 素 值 在 一 个 未 
标记 的 可 达 结 点 中 ， 该 元 素 值 在 集合 中 。find( ) 方 法 在 第 17 行 的 compareAndSet() 调 用 有 这 
样 一 个 慈善 副作用 : 它 改变 了 实际 的 链表 但 却 没有 改变 抽象 集合 ， 因 为 删除 一 个 被 标记 的 结 
点 并 不 改变 抽象 映射 的 值 。 

图 9-25 描 述 了 LockFreeList 类 的 add() 方 法 。 假 设 线程 4 调用 add(w。4 使 用 find() 来 确定 
preds 和 currs。 如 果 currs 的 key 值 等 于 a 的 key 值 ， 则 调用 返回 false。 否 则 ，add( ) 初 始 化 一 个 
新 结 点 a 来 保存 元 素 4， 并 让 a 指向 curr。。 然 后 调用 compareAndSet() (第 11 行 ) 设置 pred, 指 
向 a。 因 为 compareAndSet() 同 时 检测 标记 和 3 引用， 所 以 仅 当 preds 未 标记 且 指 向 currs 时 才 会 


N 
CN 
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成 功 。 如 果 compareAndSet( ) 调 用 成 功 ， 该 方法 返回 true， 否 则 重新 开始 。 





1 public boolean add(T item) { 

2 int key = item. hashCode(); 

3 while (true) { 

4 Window window = find(head, key); 

5 Node pred = window.pred, curr = window.curr; 
6 if (curr.key == key) { 

7 return false; 

8 } else { 








9 Node node = new Node(item); 

10 node.next = new AtomicMarkableReference(curr, false); 

11 if (pred.next.compareAndSet(curr, node, false, false)) { 

12 return true; 

13 } 

14 } 

15 } 

16 } | 





图 9-25 LockFreeList 类 : add() 方 法 调用 find( ) 以 确定 pred 和 curr\。 仅 当 pred ,为 未 标记 且 
站 向 currs 时 ， 它 增加 一 个 新 结 点 


图 9-26 描 述 了 LockFreeList 算 法 的 remove( ) 方 法 。 当 4 调用 remove( ) 删 除 元 素 4 时 ， 它 使 
用 find( ) 来 确定 pred4 和 currs。 如 果 currs 的 key 值 与 4 的 key 值 不 匹配 ， 则 调用 返回 false。 否 
则 ，remove( ) 调 用 compareAndSet( ) 将 currs 标 记 为 逻辑 删除 (第 27 行 )。 该 调用 仅 当 不 存在 
其 他 线程 已 经 先 设置 该 标记 的 情形 下 成 功 。 如 果 成 功 ， 调 用 返回 true。 对 物理 删除 只 是 做 一 个 
简单 的 尝试 ， 但 没有 必要 再 次 尝试 ， 因 为 下 一 个 遍历 链表 中 该 部 分 的 线程 将 会 删除 该 结 点 。 
如 果 compareAndSet( ) 调 用 失败 ，remove( ) 方 法 将 重新 执行 。 








17 public boolean remove(T item) { 

18 int key = item.hashCode(); 

19 boolean snip; 

20 while (true) { 

21 Window window = find(head, key); 

22 Node pred = window.pred, curr = window.curr; 

23 if (curr.key != key) { 

24 return false; 

25 } else { 

26 Node succ = curr.next.getReference(); 

27 snip = curr.next.compareAndSet(succ, succ, false, true); 
28 if (!snip) 

29 continue; 

30 pred.next.compareAndSet (curr, succ, false, false); 
31 return true; 

32 } 

33 } 

34} 








图 9-26 LockFreeList 类 : remove() 方 法 调用 find() 来 确定 preds 和 curr,， 并 自动 地 将 结 点 
标记 为 已 删除 
LockFreeList 算 法 的 contains( ) 方 法 实质 上 和 LazyList 相 同 (图 9-27) ， 只 是 有 一 点 小 
的 改变 : 为 了 测试 curr 是 否 已 被 标记 ， 必 须 调 用 curr .next.get(marked) 以 确认 marked[0] 为 


true, 
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ee ; : , ] 
35 public boolean contains(T item) { 
36 boolean[] marked = false; 
37 int key = item. hashCode(); 
38 Node curr = head; 
39 while (curr.key < key) { 
40 curr = curr.next.getReference(); 
41 Node succ = curr.next.get (marked) ; 
42 
43 return (curr.key == key && !marked[0]) 
44 } 
a a ee eS 





图 9-27 LockFreeList2&é; 无 等 待 contains( ) 方 法 实质 上 和 LazyList 类 相同 。 只 有 一 点 区 别 : 
它 调用 curr .next.get(marked) 以 确认 curr 是 否 已 被 标记 


9.9 讨论 


本 章 讲述 了 基于 链表 的 锁 实 现 的 发 展 变化 ， 在 这 个 演变 过 程 中 ， 锁 的 粒度 和 使 用 频率 逐 
步 地 减 小 ， 最 后 得 到 了 一 个 完全 无 阻塞 的 链表 。 从 LazyList 最 终 变 为 LockFreeList， 为 并 发 
程序 设计 者 提供 了 一 些 直接 可 用 的 设计 策略 。 正 如 将 要 看 到 的 ， 像 乐观 同步 和 惰性 同步 这 样 
一 些 方法 ， 在 设计 更 复杂 的 数据 结构 时 也 经 常 被 使 用 。 

一 方面 ，LockFreeList 算 法 能 够 保证 在 面 对 任 意 的 延迟 时 ， 线 程 可 以 继续 演进 。 当 然 ， 
这 种 强 演进 保证 需要 一 些 代 价 : 

“对 引用 和 布尔 标记 的 原子 修改 需要 额外 的 性 能 损耗 。e 

“ 当 add( ) 和 remove( ) 人 遍历 链表 的 时 候 ， 它 们 必须 参与 对 已 删除 的 结 点 的 并 发 清理 ， 从 而 

导致 线程 之 间 可 能 发 生 争 用 ， 即 使 在 每 个 线程 试图 修改 的 结 点 附近 没有 发 生 改 变 ， 有 时 

也 会 使 得 线程 重新 遍历 链表 。 

男 一 方面 ， 基 于 锁 的 惰性 链表 在 面 对 任意 延迟 时 并 不 保证 演进 : 它 的 add() 和 remove( ) 方 
法 正在 阻塞 。 但是， 与 无 锁 算法 不 同 ， 它 并 不 要 求 每 个 结 点 具有 原子 的 可 标记 引用 ， 也 不 需 
要 遍历 链表 来 清除 逻辑 删除 的 结 点 。 它 们 顺 着 链表 继续 前 进 ， 不 用 考虑 被 标记 的 结 点 。 

哪 一 种 方法 更 加 合适 取决 于 应 用 。 最 后 ， 对 诸如 任意 线程 延迟 的 可 能 、add( ) 和 remove( ) 
调用 的 相对 频率 、 实 现 原子 地 可 标记 引用 的 代价 等 因素 的 综合 平衡 ， 决 定 了 是 否 使 用 锁 以 及 
使 用 什么 粒度 的 锁 。 


9.10 本 章 注释 


锁 耦 合 是 由 Rudolf Bayer 和 Mario Schkolnick[19] 提 出 的 。 最 早 的 无 锁链 表 算 法 归功 于 John 
Valois[147]。 本 章 所 描述 的 无 锁链 表 实 现 是 Maged Michael[114] 链 表 的 一 种 变化 形式 ， 而 他 的 工 
作 是 在 早先 由 Tim Harris[53] 提 出 的 链表 算法 基础 上 开展 的 。 所 以 ， 这 种 算法 被 大 多 数 人 称 为 
Harris-Michael 算 法 。 Harris-Michael 算 法 是 Java 的 并 发 包 中 所 使 用 的 一 种 算法 。0ptimisticList 
算法 是 本 章 所 提出 的 ， 而 情 性 算法 则 要 归功 于 Steven Heller, Maurice Herlihy, Victor 
Luchangco, Mark Moir, Nir Shavit 和 Bill Scherer[55], 





日 ”例如 ， 在 Java Concurrent Package 中 ， 可 以 通过 一 个 指向 中 间 虚 结 点 的 引用 表明 该 标记 位 已 被 设置 ， 以 减 
少 这 种 代价 。 
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9.11 习题 


习题 100. 如 果 对 象 的 哈 希 码 不 是 唯一 的 ， 应 如 何 修改 每 个 链表 算法 。 

习题 101. 说 明 为 什么 细 粒 度 锁 算法 不 会 产生 死 锁 。 

习题 102. 说 明 为 什么 细 粒 度 链表 的 add( ) 方 法 是 可 线性 化 的 。 

习题 103. 说 明 为 什么 乐观 锁 算 法 和 情 性 锁 算 法 不 会 产生 死 锁 。 

习题 104. 给 出 乐观 算法 中 的 一 个 场景 ， 其 中 一 个 线程 在 永远 试图 删除 一 个 结 点 。 

提示 : 由 于 假设 单个 结 点 的 锁 都 是 无 饥饿 的 ， 所 以 任意 单个 锁 都 不 是 活 锁 ， 一 次 不 好 的 执 

行 必定 是 不 断 地 对 链表 增加 和 删除 结 点 。 

习题 105. 写 出 细 粒 度 算 法 中 未 给 出 的 contains( ) 方 法 的 代码 ， 并 说 明 为 什么 你 的 实现 是 正确 的 。 

习题 106. 如 果 我 们 交换 add( ) 方 法 中 锁定 pred 和 curr 的 数据 项 的 次 序 ， 乐 观 链表 算法 是 否 仍 然 正 确 ? 

习题 107. 证 明 在 乐观 链表 算法 中 ， 如 果 preds 不 为 空 ， 即 使 preds 本 身 是 不 可 达 的 ,但 从 preds 开 始 
tail 也 是 可 达 的 。 

习题 108. 证 明 在 乐观 算法 中 ，add( ) 方 法 只 需 锁 住 pred 结 点 。 

习题 109. 在 乐观 算法 中 ， 在 决定 一 个 key 值 是 否 存在 之 前 ，contains ( ) 方 法 需要 锁 住 两 个 数据 项 。 
然而 ， 现 假设 它 不 锁定 任何 数据 项 ， 如 果 找 到 值 则 返回 true， 否 则 返回 false。 

这 种 方法 是 否 是 可 线性 化 的 ? 若 不 是 则 给 出 一 个 反例 。 

习题 110. 如 果 通 过 将 一 个 结 点 的 next 域 设 为 mal 来 把 一 个 结 点 标记 为 被 删除 的 ， 那 么 情 性 算法 还 是 
正确 的 吗 ? 为 什么 ?对 无 锁 算法 会 怎样 呢 ? 

习题 111. 在 惰性 算法 中 ，preds 是 否 有 可 能 是 不 可 达 的 ?证 明 你 的 答案 。 

习题 112. 你 的 新 员工 说 惰性 链表 的 验证 方法 (图 9-16) 能 通过 删除 掉 验 证 pred.next 域 等 于 curr 这 
一 部 分 来 简化 。 因 为 不 管 怎样 ， 代 码 总 是 将 pred 设 置 为 curr 的 旧 值 ， 在 pred.next 被 改变 之 前 ， 
curr 的 新 值 必须 被 标记 ， 从 而 导致 验证 失败 。 指 出 这 个 推理 过 程 中 的 错误 。 

习题 113. 你 能 修改 惰性 算法 中 的 remove( ) 方 法 ， 使 得 只 需 锁 住 一 个 结 点 吗 ? 

习题 114. 在 无 锁 算 法 中 ， 说 明 在 清除 被 逻辑 删除 的 结 点 时 ， 使 用 contains( ) 方 法 的 优点 和 缺点 。 

习题 115. 在 无 锁 算法 中 ， 如 果 由 于 pred 没 有 指向 curr 且 pred 未 被 标记 而 导致 add( ) 方 法 失败 ， 那 
么 为 了 完成 本 次 调用 ， 还 需要 再 一 次 从 head 开 始 遍历 链表 吗 ? 

习题 116. 如 果 不 保 证 逻辑 删除 的 结 点 是 已 排 好 序 的 ， 那 么 情 性 算法 和 无 锁 算法 的 contains ( ) 方 法 
仍然 是 正确 的 吗 ? 

习题 117. 无 锁 算法 的 add( ) 方 法 决 不 会 找到 一 个 具有 相同 key 值 的 已 标记 结 点 。 能 否 修改 这 个 算法 ， 
使 得 如 果 链 表 中 存在 具有 相同 key 值 的 结 点 ， 则 只 需 简 单 地 将 要 增加 的 新 对 象 插入 该 结 点 中 ， 从 
而 不 需要 再 插入 一 个 新 结 点 ? 

习题 118. 解释 为 什么 下 述 情形 在 LockFreeLi st 算法 中 不 会 出 现 。 一 个 具有 数据 值 x 的 结 点 被 某 个 线 
程 逻 辑 地 删除 ， 但 还 未 被 物理 地 删除 。 这 时 ， 同 一 个 数据 值 x 被 另 一 个 线程 增加 到 链表 中 ， 最 后 ， 
第 三 个 线程 调用 contains() 方 法 遍历 链表 ， 发 现 了 逻辑 删除 的 结 点 ， 并 返回 false ， 即 使 
remove( ) 方 法 和 add( ) 方 法 的 可 线性 化 次 序 表明 x 还 在 集合 中 。 
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在 接 下 来 的 几 章 中 ， 介 绍 一 系列 由 称 为 池 的 对 象 所 组 成 的 类 。 池 与 第 9 章 中 讲述 的 Set 类 
非常 相似 ， 但 它们 之 间 有 两 个 不 同 点 : 不 需要 提供 contains() 方 法 来 检测 池 的 成 员 ， 人 允许 同 
一 个 对 象 在 池 中 多 次 出 现 。 如 图 10-1 所 示 ，Poo1 只 有 get( ) 方 法 和 set( ) 方 法 。 在 并 发 系统 中 ， 
有 许多 地 方 都 要 用 到 池 。 例 如 ， 在 大 多 数 应 用 中 ， 一 个 或 多 个 生产 者 线程 生产 数据 元 素 ， 一 
个 或 多 个 消费 者 线程 使 用 所 产生 的 数据 。 这 些 数据 元 素 
可 以 是 需要 执行 的 任务 、 要 解释 的 键盘 输入 、 待 处 理 的 public interface Poot<t> | 
订单 或 需 解码 的 数据 包 。 有 时 生产 者 会 突然 加 速 ， 产 生 T get(); 
数据 的 速度 远 远 超出 消费 者 使 用 数据 的 速度 。 为 使 消费 
者 能 跟 得 上 生产 者 ， 需 要 在 生产 者 和 消费 者 之 间 放 置 一 
个 给 冲 区 ， 将 那些 来 不 及 处 理 的 数据 先 放 在 缓冲 区 中 ， 

以 使 得 它们 能 被 尽 可 能 快 地 消费 。 池 的 作用 往往 与 生产 者 -消费 者 缓冲 区 的 作用 相同 。 

池 有 以 下 几 种 不 同 的 变化 形式 。 

. 池 可 以 是 有 界 或 无 界 的 。 有 界 池 存放 有 限 个 数 的 元 素 。 该 界限 称 为 池 的 容量 。 无 界 池 可 

以 存放 任意 数量 的 元 素 。 当 需要 保持 生产 者 和 消费 者 之 间 的 松弛 同步 ， 即 生产 者 不 要 过 

快 地 超过 消费 者 时 ， 就 要 用 到 有 界 地 。 有 界 池 的 实现 要 比 无 界 池 简单 。 当 不 需要 设置 固 

定 的 界限 来 限制 生产 者 可 比 消费 者 快 多 少 的 程度 时 ， 就 要 用 到 无 界 池 。 

* 池 的 方法 可 以 是 完全 、 部 分 或 同步 的 。 

. 若 一 个 方法 的 调用 不 需要 等 待 某 个 条 件 成 立 ， 则 称 该 方法 是 完全 的 。 例 如 ， 一 个 试图 
从 空地 中 删除 元 素 的 get( ) 调 用 将 立刻 返回 错误 码 或 者 抛 出 一 个 异常 。 一 个 试图 向 满 
的 有 界 池 中 添加 一 个 元 素 的 完全 set( ) 调 用 也 会 立即 返回 错误 码 或 抛 出 异常 。 当 生产 
者 (或 消费 者 ) 线程 有 比 等 待 方法 调用 生效 还 要 好 的 其 他 事情 可 处 理 时 ， 完 全 接口 非 
常 有 用 。 

. 若 一 个 方法 的 调用 需要 等 待 某 个 条 件 成 立 ， 则 称 该 方法 是 部 分 的 。 例 如 ， 一 个 试图 从 
空地 中 删除 元 素 的 部 分 get( ) 调 用 将 会 阻塞 ， 直 到 池 中 有 可 用 元 素 才 返回 。 一 个 试图 
向 满 的 有 界 池 中 添加 元 素 的 部 分 set( ) 调 用 将 会 阻塞 ， 直 到 池 中 有 一 个 可 用 的 空 槽 插 
入 元 素 为 止 。 当 生产 者 (或 消费 者 ) 线程 除了 等 待 池 变 为 非 空 (或 非 满 ) 以 外 ， 没 有 
其 他 更 好 的 事情 可 做 时 ， 部 分 接口 非常 有 用 。 

. 若 一 个 方法 需要 等 待 另 一 个 方法 与 它 的 调用 间隔 相 重大 ， 则 称 该 方法 是 同步 的 。 例 如 ， 
在 一 个 同步 池 中 ， 一 个 向 地 中 添加 元 素 的 方法 调用 将 被 阻塞 直到 该 增加 的 元 素 被 另 一 
个 方法 调用 取 走 。 同 样 ， 一 个 从 池 中 删除 元 素 的 调用 将 被 阻塞 直到 另 一 个 方法 调用 汪 、 
加 了 这 个 可 用 于 删除 的 元 素 。( 这 种 方法 也 是 部 分 的 。) 在 CSP 和 Ada 这 些 编程 语言 中 ， 


图 10-1 Poo1<T> 接 口 
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同步 地 还 可 用 于 通信 ， 线 程 可 以 通过 会 合 (rendezvous) 来 交换 信息 。 

。 池 提供 了 各 种 不 同 的 公平 性 保证 。 这 些 公平 性 包括 先进 先 出 (队列 )、 后 进 先 出 (AR) 
以 及 其 他 一 些 弱 公 平 性 。 在 使 用 池 作 为 缓冲 区 时 ， 公 平 性 显然 是 非常 重要 的 。 例 如 ， 任 
何 一 个 人 给 银行 或 技术 支持 热线 所 打 的 电话 ， 只 是 被 放 入 一 个 呼叫 服务 等 待 池 中 。 等 待 
的 时 间 越 长 ， 越 让 人 烦躁 ， 但 当 他 知道 大 家 是 按照 先 来 先 服务 的 方式 在 排队 ， 那 就 会 平 
静 些 了 ， 只 好 无 奈 地 等 待 。 


10.2 队列 


本 章 主要 考虑 一 种 能 够 支持 先进 先 出 公平 性 的 地 。 一 个 顺序 的 Queue<T> 是 一 个 类 型 为 T 的 
元 素 所 组 成 的 有 序 序 列 。 它 提供 enq(x) 方 法 用 于 将 对 象 * 放 入 队列 中 称 为 tail 的 一 端 ， 提 供 
deq( ) 方 法 用 于 删除 并 返回 队列 中 称 为 head 的 另 一 端的 元 素 。 并 发 队列 可 线性 化 为 顺序 队列 。 
队列 是 一 种 由 enq( ) 实 现 put( ) 而 由 deq( ) 实 现 get( ) 的 池 。 我 们 使 用 队列 实现 来 阐述 一 些 重要 
的 原则 。 稍 后 的 几 章 将 考虑 提供 其 他 公平 性 的 池 。 


10.3 部 分 有 界 队列 


为 简单 起 见 ， 假 定 不 允许 向 队列 中 增加 null 值 。 当 然 ， 在 某 些 情形 下 ， 向 队列 中 增加 和 删 
除 nul! 值 是 有 意义 的 ， 对 此 问题 的 解决 留 作 习 题 ， 可 以 通过 改进 算法 使 其 允许 null 值 。 

一 个 有 多 个 并 发 出 队 者 和 入 队 者 的 有 界 队 列 能 提供 多 大 程度 的 并 行 性 呢 ? 非 形式 化 地 来 
说 ， 由 于 出 队 者 和 入 队 者 分 别 在 队列 的 两 端 进行 操作 ， 所 以 只 要 队列 没有 满 或 不 为 空 ， 原 则 
上 来 讲 ，enq( ) 和 deq( ) 操 作 都 可 以 无 干扰 地 演进 。 出 于 同样 的 原因 ， 并 发 的 enq( ) 有 可 能 相 
互 干扰 ， 并 发 的 deq( ) 也 可 能 相互 干扰 。 这 种 非 形式 化 的 推理 看 起 来 很 有 道理 ， 而 且 事 实 上 在 
大 多 数 情形 下 也 是 正确 的 ， 但是， 达到 这 种 级 别 的 并 行 性 并 非 易 事 。 

下 面 采 用 链表 来 实现 有 界 队 列 。( 也 可 以 使 用 数组 。) 图 10-2 描 述 了 队列 的 域 和 构造 函数 ， 
图 10-3 和 图 10-4 描 述 了 enq() 和 deq( ) 方 法 ， 图 10-5 描 述 了 队列 的 结 点 。 与 第 9 章 所 学 的 链表 一 
样 ， 一 个 队列 结 点 包括 value 域 和 next 域 。 









1 public class BoundedQueue<T> { 
2 ReentrantLock engLock, deqLock; 

3 Condition notEmptyCondition, notFullCondition; 
4 AtomicInteger size; 

5 volatile Node head, tail; 
6 

7 

8 










int capacity; 
public BoundedQueue(int capacity) { 
capacity = capacity; 














9 head = new Node(null); 

10 tail = head; 

11 size = new AtomicInteger(0); 

12 enqLock = new ReentrantLock(); 

13 notFullCondition = enqLock.newCondition(); 
14 deqLock = new ReentrantLock(); 






notEmptyCondition = deqlock.newCondition(); 






图 10-2 BoundedQueuezk: 域 和 构造 函数 
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17 public void enq(T x) { 
18 boolean mustWakeDequeuers = false; 
19 engLock.lock(); 
20 try { 
21 while (size.get() == capacity) 
22 notFullCondition.await(); 
23 Node e = new Node(x); 
24 tail.next = tail; tail = e; 
25 if (size.getAndIncrement() == 0) 
26 mustWakeDequeuers = true; 
27 } finally { 
28 engLock.unlock(); 
29 } 
30 if (mustWakeDequeuers) { 
31 deqLock.lock(); 
32 try { 
33 notEmptyCondition.signalAl1(); 
34 } finally { 
35 deqLock.unlock(); 
36 } 
37 } 
38 } | 
图 10-3 BoundedQueuezE: enq() 方 法 
39 public T deq() { 
40 T result; 
41 boolean mustWakeEnqueuers = false; 
42 deqlock.lock(); 
43 try { 
44 while (size.get() == 0) 
45 notEmptyCondition.await(); 
46 result = head.next.value; 
47 head = head.next; 
48 if (size.getAndDecrement() == capacity) { 
49 mustWakeEnqueuers = true; 
50 } 
51 } finally { 
52 deqLock.unlock(); 
53 
54 if (mustWakeEnqueuers) { 
55 enqLock.lock()3 
56 try { 
57 notFullCondition.signalAll(); 
58 } finally { 
59 engLock.unlock(); 
60 } 
61 } 
62 return result; 
= 63 } 














图 10-4 BoundedQueue 类 : deq( ) 方 法 


从 图 10-6 可 以 看 出 ， 队 列 本 身 包 含 head 域 和 tai1 域 ， 分 别 指向 队列 的 第 一 个 结 点 和 最 后 
一 个 结 点 。 队 列 总 是 包含 一 个 作为 空间 占用 者 的 哨兵 结 点 。 和 第 9 章 的 哨兵 结 点 一 样 ， 尽 管 它 
的 值 没 有 任何 意义 ， 但 它 标注 了 队列 中 的 一 个 位 置 。 然 而 ， 与 第 9 章 的 链表 算法 所 不 同 的 是 ， 
第 9 章 算 法 中 的 哨兵 结 点 总 是 作为 哨兵 ， 而 这 里 的 队列 不 断 地 替换 哨兵 结 点 。 我 们 分 别 使 用 两 
个 不 同 的 锁 (enqLock 和 deqLock) 来 保证 在 一 个 时 刻 最 多 只 有 一 个 入 队 者 和 一 个 出 队 者 可 以 
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操作 队列 对 象 的 域 。 这 种 采用 两 个 锁 而 不 是 一 个 锁 的 方式 能 够 保证 入 队 者 不 会 锁 住 出 队 者 ， 
反之 亦 然 。 每 个 锁 都 有 一 个 与 之 相关 的 条 件 域 。 
enqLock 与 notFu11Condition 条 件 相 关联 ， 当 队列 不 ae 


再 为 满 时 ， 用 来 通知 正在 等 待 的 入 队 者 。deqLock 与 66 public volatile Node next; 
notEmptyCondition 相 关联 ， 当 队列 不 再 为 空 时 ， 用 ee Node(T x) { 





value = x; 





来 通知 正在 等 待 的 出 队 者 。 69 next = null; 
HPO AT, LEER. |! 
size 域 是 用 来 记录 队列 中 并 发 对 象 个 数 的 Atomic- 72 } 
Integer, deq ) 调 用 将 会 减少 该 域 的 值 ， 而 enq( ) 调 图 10.5 BouAdedQueuess. SEJ 
用 将 增加 该 域 的 值 。 
lock i a 
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图 10-6 具有 4 个 槽 的 BoundedQueue 的 enq( ) 方 法 和 deq( ) 方 法 。 首 先 ， 通 过 获取 enqLock 将 一 
个 结 点 插入 到 队列 中 。enq() 检 测 队 列 的 size 为 3， 小 于 队列 的 界限 。 然 后 重新 设置 由 
tail 域 所 指 结 点 的 next 域 (第 一 步 )， 重 设 tai1 指 向 新 结 点 (第 二 步 )， 将 size 增 加 
为 4， 并 释放 锁 。 由 于 size 现 在 为 4， 任 何 新 的 enq( ) 调 用 都 将 引起 线程 阻塞 ， 直 到 某 
个 deq() 触 发 notFul11Condition。 接 下 来 ， 某 个 线程 将 一 个 结 点 出 队 。deq() 获 得 
deqLock， 从 head 所 指 结 点 (该 结 点 此 时 为 哨兵 结 点 ) 的 后 继 中 读 取 新 值 ?»， 重 新 设置 
head 指 向 该 后 继 结 点 (第 三 步 )， 将 size 减 为 3， 并 释放 锁 。 在 deq( ) 完 成 之 前 ， 由 于 
在 它 开始 时 size 为 4， 所 以 线程 获得 enqLock 并 对 所 有 等 待 notFul11Condition 的 入 队 
者 发 出 信号 使 它们 能 够 继续 执行 
enq() 方 法 (图 10-3) 按照 如 下 方式 工作 。 线 程 首先 获得 enqLock (第 19 行 )， 然 后 读 size 
域 (第 21 行 )。 如 果 该 域 等 于 队列 的 容量 ， 则 队列 是 满 的 ,该 入 队 者 必须 等 待 直到 一 个 出 队 者 
P: 入 队 者 在 notFu11Condition 域 上 等 待 (第 22 行 )， 暂 时 释放 enqLock 锁 ， 等 待 条 件 
号 产生 。 每 当 入 队 者 被 唤醒 ， 它 就 检查 是 否 有 空位 ， 如 果 没 有 ， 则 继续 睡眠 。 
一 旦 空 槽 的 个 数 大 于 0， 入 队 者 就 会 继续 执行 。 注 意 一 旦 入 队 者 发 现 有 空 槽 ， 则 当 入 队 者 
还 在 继续 执行 时 ， 其 他 线程 不 能 向 队列 中 插入 元 素 ， 因 为 其 他 的 入 队 者 被 锁定 ， 只 有 一 个 并 
发 的 出 队 者 可 以 增加 空 槽 的 数目 。(enq( ) 的 同步 相 类 似 ) 。 
必须 仔细 地 检查 在 这 种 实现 中 不 会 出 现 第 8 章 中 所 讲 的 “唤醒 丢失 ”问题 。 这 种 细心 检查 
是 必需 的 ， 其 原因 在 于 入 队 者 分 两 步 来 检测 满 队 列 : 首先 ， 发 现 size 与 队列 容量 相同 ， 其 次 ， 
它 在 notFul11Condition 上 等 待 直 到 队列 中 出 现 空 槽 。 当 出 队 者 将 队列 从 满 变 为 不 满 时 ， 它 获 
得 enqLock 并 对 notFul1Condition 发 出 信号 。 即 使 size 域 没有 被 enqLock 保 护 ， 也 由 于 出 队 
者 在 触发 条 件 之 前 已 先 获 得 enqLock， 所 以 出 队 者 不 可 能 在 入 队 者 的 两 个 操作 步骤 中 间 产 生 


tees 
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deq( ) 方 法 按 如 下 方式 推进 。 首 先 读 头 元 素 的 next 域 ， 然 后 检查 哨兵 的 next 域 是 否 为 null。 
如 果 是 ， 则 队列 为 空 ， 出 队 者 必须 等 待 直到 一 个 元 素 被 插入 队列 。 和 enq() 方 法 一 样 ， 出 队 者 
在 notEmptyCondition 上 等 待 ， 暂 时 释放 deqLock 锁 ， 然 后 阻塞 直到 条 件 被 触发 。 每 当 出 队 者 
被 唤醒 ， 它 就 检查 队列 是 否 为 空 ， 如 果 是 ， 则 继续 睡 卢 。 

抽象 队列 的 头 元 素 和 尾 元 素 并 不 总 是 与 head 和 tail 所 指向 的 元 素 相同 ， 理 解 这 一 点 是 非 
常 重要 的 。 一 旦 最 后 一 个 结 点 的 next 域 重新 指向 新 结 点 (enq( ) 的 线性 化 点 )， 一 个 元 素 就 被 
逻辑 地 插入 到 队列 了 ， 即 使 入 队 者 还 没有 更 新 tai1 域 也 是 如 此 。 例 如 ， 一 个 线程 可 以 持 有 
enqLock 的 同时 插入 新 结 点 。 假 设 还 没有 更 新 tai1 域 。 一 个 并 发 的 出 队 者 线程 可 以 获得 
deqLock， 读 并 且 返 回 新 结 点 的 值 ， 重 设 head 指 向 新 结 点 ， 而 所 有 这 些 操 作 都 可 在 入 队 者 重新 
设置 tai1 指 向 新 插入 的 结 点 之 前 发 生 。 

一 旦 出 队 者 确定 队列 为 非 空 ， 该 队列 将 在 这 个 deq( ) 调 用 过 程 中 一 直 保 持 为 非 空 ， 因 为 所 
有 其 他 的 出 队 者 已 被 锁定 。 考 虑 队列 中 第 一 个 非 哨兵 结 点 〈 由 哨兵 结 点 的 next 域 指向 的 结 点 ) 。 
出 队 者 读 这 个 结 点 的 value 域 ， 设 置 队 列 的 head 域 指向 该 结 点 ， 使 该 结 点 成 为 新 的 哨兵 结 点 。 
然后 出 队 者 释放 deqLock 并 将 size 减 1。 如 果 出 队 者 发 现 原先 的 size 值 等 于 队列 的 容量 ， 则 可 
能 有 入 队 者 正在 等 待 notEmptyCondition， 于 是 出 队 者 获得 enqLock 并 产生 信号 唤醒 所 有 这 样 
的 线程 。 

这 种 实现 的 一 个 缺点 就 是 并 发 的 enq( ) 和 deq( ) 相 互 干扰 ， 但 又 不 通过 锁 。 所 有 的 方法 对 
size 域 调用 getAndIncrement() 或 getAndDecrement()。 这 些 方法 比 通常 的 读 一 写 开 销 更 大 ， 
且 能 引起 顺序 瓶颈 。 

减少 这 种 干扰 的 一 种 方法 就 是 将 这 个 域 分 成 两 个 计数 器 : 一 个 由 enq( ) 增 1 的 整 型 域 
enqSideSize 和 一 个 由 deq( ) 减 1 的 整 型 域 deqSideSize。 调 用 enq( ) 的 线程 检测 enqSideSize， 
只 要 它 小 于 队列 的 容量 ， 就 继续 执行 。 当 该 域 达到 等 于 队列 的 容量 时 ， 线 程 锁 住 deqLock ， 并 
将 deqSideSize 加 到 enqSideSize 中 。 当 入 队 者 的 大 小 估 值 变 得 非常 大 时 ， 这 种 技术 能 够 分 散 
地 同步 ， 而 不 是 对 每 个 方法 调用 进行 同步 。 


10.4 完全 无 界 队列 


现在 介绍 另外 一 种 队列 ， 该 队列 能 够 存放 数量 不 限 的 元 素 。enq( ) 总 是 可 以 向 队列 中 增加 
元 素 ， 如 果 队 列 中 没有 元 素 可 以 出 队 ，deq( ) 则 抛 
出 EmptyException。 这 种 队列 的 描述 与 有 界 队列 
一 样 ， 但 不 需要 保存 队列 中 元 素 的 个 数 ， 也 不 需 
要 提供 用 于 等 待 的 条 件 。 如 图 10-7 和 图 10-8 所 示 ， 
该 算法 要 比 有 界 的 算法 简单 。 

这 种 队列 不 可 能 死 锁 ， 因 为 每 个 方法 只 获得 
一 个 锁 ， 或 者 enqLock 或 者 deqLock 。 队 列 中 唯一 
的 哨兵 结 点 永远 不 会 被 删除 ， 所 以 只 要 每 个 enq( ) 
调用 获得 了 锁 就 可 以 继续 前 进 。 当 然 ， 如 果 队 列 
为 空 〈 如 果 head.next 为 ma ) ， 则 deq() 有 可 能 
败 。 与 之 前 的 有 界 队 列 实现 一 样 ,， 当 enq( ) 调 用 将 最 后 一 个 结 点 的 next 域 设置 为 指向 新 结 点 时 ， 
一 个 数据 元 素 就 被 真正 加 入 到 队列 中 ， 即 使 在 enq( ) 重 新 设置 tai1 指 向 新 结 点 之 前 也 是 如 此 。 
在 这 个 瞬间 之 后 ， 新 的 结 点 顺 着 next 的 链 是 可 达 的 。 和 通常 情况 一 样 ， 队 列 真正 的 头 结 点 和 











public void enq(T x) { 

engLock.lock(); 

try { 
Node e = new Node(x); 
tail.next = e; 
tail = e; 

} finally { 
engLock.unlock(); 


} 





CWOON DO PWN 


be 





图 10-7 UnbounedQueue<T>2E: enq( ) 方 法 
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尾 结 点 并 不 总 是 与 head 和 tai1 所 指向 的 结 点 相同 。 实 际 的 头 结 点 是 head 所 指向 结 点 的 后 继 ， 
而 实际 的 尾 结 点 是 从 头 结 点 可 达 的 最 后 一 个 元 素 。enq( ) 和 deq( ) 都 是 完全 的 ， 因 为 它们 都 不 
需要 等 待 队列 变 为 空 或 变 为 满 。 





11 public T deq() throws EmptyException { 
12 T result; 

13 deqLock.lock(); 

14 try { 

15 if (head.next == null) { 

16 throw new EmptyException(); 
17 

18 result = head.next.value; 

19 head = head.next; 

20 } finally { 

21 deqLock.unlock(); 

22 } 

23 return result; 

24 } 











图 10-8 UnboundedQueue<T> 类 : deq() 方 法 





public class Node { 
public T value; 
public AtomicReference<Node> next; 


10.5 无 锁 的 无 界 队 列 
现在 描述 LockFreeQueue<T> 类 ,这 : public Node(T value) { 

是 一 种 无 锁 的 无 界 队 列 实现 。 该 类 由 图 5 this.value = value; 

10-9 至 图 10-11 所 描述 ， 是 10.4 节 中 完全 : next = new AtomicReference<Node>(null); 

无 界 队 列 的 自然 扩展 。 该 实现 通过 让 较 8 

快 的 线程 帮助 较 慢 的 线程 来 防止 方法 调 

用 陷入 饥 钱 。 

和 前 面 的 做 法 一 样 ， 将 队列 表示 为 由 结 点 所 组 成 的 链表 。 但 是 ， 如 图 10-9 所 示 的 那样 ， 
每 个 结 点 的 next 域 是 一 个 指向 链表 中 下 一 个 结 点 的 AtomicReference<Nodey> 。 从 图 10-12 可 以 
看 出 ， 队 列 本 身 由 两 个 AtomicReference<Node> 域 组 成 ， head 指 向 队列 中 的 第 一 个 结 点 ， 
tail1 指 向 最 后 一 个 结 点 。 队 列 中 的 第 一 个 结 点 为 哨兵 结 点 ， 它 的 值 是 没有 意义 的 。 队 列 的 构 
造 函 数 将 head 和 tail 都 设置 为 指向 哨兵 结 点 。 


} 








图 10-9 LockFreeQueue<T> 类 : 链表 结 点 








9 public void enq(T value) { 
10 Node node = new Node(value); 
11 while (true) { 
12 Node last = tail.get(); 
13 Node next = last.next.get(); 
14 if (last == tail.get()) { 
15 if (next == null) { 
16 if (last.next.compareAndSet (next, node)) { 
17 tail.compareAndSet(last, node); 
18 return; 
19 
20 } else { 
21 tail.compareAndSet (last, next); 
22 } 
23 } 
24 } 
| 25 } 








图 10-10 LockFreeQueue<T> 类 : enq() 方法 
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[ 26 public T deq() throws EmptyException { =i 
27 while (true) { 
28 Node first = head.get(); 
29 Node last = tail.get(); 
30 Node next = first.next.get(); 
31 if (first == head.get()) { 
32 if (first == last) { 
33 if (next == null) { 
34 throw new EmptyException(); 
35 } 
36 tail.compareAndSet (last, next); 
37 } else { 
38 T value = next.value; 
39 if (head.compareAndSet (first, next)) 
40 return value; 
41 } 
42 } 
43 } 
44 } 








图 10-11 LockFreeQueue<T>3€: deq() 方法 


enq ) 方 法 的 一 个 有 趣 特 点 就 是 它 是 情 性 的 : 这 种 现象 可 以 在 两 个 不 同 的 操作 中 出 现 。 为 
了 使 该 方法 为 无 锁 的 ， 线 程 间 有 可 能 需要 互相 帮助 。 图 10-12 描 述 了 这 些 步骤 。 


tail head 






@CAS head Mi 
@ CAS tail 


[new | = —next : 
= H ocas next 释放 的 结 ， 


点 
图 10-12 LockFreeQueue 的 无 锁 惰性 enq( ) 和 deq( ) 方 法 。 结 点 分 两 步 插入 到 队列 中 。 首 先 ， 
调用 compareAndSet( ) 将 队列 的 tail 所 指向 结 点 的 next 域 从 null 改 变 为 新 结 点 。 接着 
调用 compareAndSet() 让 tai1 本 身 指向 新 结 点 。 从 队列 中 删除 数据 元 素 也 分 为 两 步 。 
调用 compareAndSet() 从 哨兵 所 指向 的 结 点 中 读 取 数 据 项 ， 然 后 将 nead 从 指向 当前 
的 哨兵 结 点 改 为 指向 哨兵 的 后 继 结 点 ， 使 后 者 成 为 新 的 哨兵 结 点 。enq() 方 法 和 
deq( ) 方 法 相互 帮助 完成 未 完成 的 tai1 更 新 


在 下 面 的 描述 中 ， 行 号 指 图 10-9 到 图 10-11 中 标记 的 代码 行 。 正 常情 况 下 ，endq( ) 方 法 创 
建 一 个 新 结 点 (第 10 行 )， 定 位 到 队列 中 最 后 一 个 结 点 (第 12~ 13 行 )， 然 后 执行 下 面 两 步 ， 

1. 调用 compareAndSet( ) 添 加 新 结 点 (第 16 行 )。 

2. 调用 compareAndSet( ) 将 队列 的 tai1 域 从 原来 的 最 后 一 个 结 点 改变 为 当前 的 最 后 一 个 
结 点 (第 17 行 )。 

由 于 这 两 个 步骤 都 不 是 原子 地 执行 的 ， 所 以 所 有 其 他 的 方法 调用 都 要 准备 面 对 一 个 未 完 
成 的 enq( ) 调 用 ， 来 完成 添加 结 点 的 工作 。 这 就 是 我 们 在 第 6 章 的 通用 构造 中 第 一 次 看 到 的 
“帮助 ”技术 的 一 个 实例 。 

现在 来 详细 地 分 析 所 有 的 步 又。 一 个 和 人 队 者 首先 创建 了 一 个 包含 要 插入 新 元 素 的 新 结 点 
(第 10 行 )， 读 tail， 发 现 这 个 看 似 为 最 后 一 个 结 点 的 结 点 (第 12~13 行 )。 为 了 验证 该 结 点 的 
确 是 最 后 一 个 结 点 ， 它 检查 该 结 点 是 否 有 后 继 结 点 (第 15 行 )。 如 果 有 ， 该 线程 则 调用 
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compareAndSet( ) 尝 试 添加 新 结 点 (第 16 行 )。(compareAndSet() 是 必需 的 ， 因 为 其 他 线程 也 
可 能 在 做 同样 的 事情 。) 若 compareAndSet( RIRE, 线程 则 第 二 次 调用 compareAndSet() 
使 tai1 指 向 新 结 点 (第 17 行 )。 即 使 第 二 个 compareAndSet( ) 调 用 失败 了 ， 线 程 也 能 成 功 返 回 ， 
因为 稍 后 将 会 看 到 ， 该 调用 只 有 在 其 他 的 某 个 线程 已 设置 tai1 指 向 后 继 结 点 来 “帮助 ”了 本 
线程 时 才 可 能 失败 。 如 果 尾 结 点 有 后 继 结 点 (第 20 行 )， 则 该 方法 通过 在 重新 插入 自己 的 结 点 
之 前 让 tail 直 接 指 向 后 继 结 点 来 尝试 “帮助 ”其 他 线程 (第 21 行 )。 该 enq( ) 是 完全 的 ， 即 它 
不 用 等 待 出 队 者 。 在 正在 执行 的 线程 (或 一 个 并 发 的 帮助 线程 ) 调用 compareAndSet( ) 重 新 设 
置 tail 域 指向 新 结 点 (第 21 行 ) 的 瞬间 ， 一 个 成 功 的 enq( ) 可 以 在 这 个 点 被 线性 化 。 

deq( ) 方 法 与 UnboundedQueue 中 的 完全 deq( ) 方 法 相 类 似 。 如 果 队 列 是 非 空 的 ， 出 队 者 调 
用 compareAndSet( ) 将 head 从 哨兵 结 点 改 为 其 后 继 ， 使 后 继 结 点 变 为 新 的 哨兵 结 点 。deq() 方 
法 采用 和 前 面 一 样 的 办 法 来 确认 队列 为 非 空 ,检查 head 结 点 的 next 域 不 为 null。 

然而 ， 在 无 锁 的 情况 下 存在 一 个 很 微妙 的 问题 ， 如 图 10-13 所 示 : 在 向 前 移动 head 之 前 ， 
必须 确认 tai1 没 有 指向 将 要 被 删除 的 哨兵 结 点 。 为 了 避免 这 个 问题 ， 我 们 增加 一 个 测试 : 如 
果 head 等 于 tail (583247) 并 且 它 们 所 指向 结 点 (哨兵 ) 的 next 域 为 非 maz1 (第 33 行 )， 则 认 
为 tai1 滞 后 了 。 与 enq( ) 方 法 中 一 样 ，deq( ) 则 通过 调整 tai1 指 向 哨兵 结 点 的 后 继 来 尝试 帮助 
tail 使 其 为 一 致 的 (第 36 行 )， 只 有 在 这 时 才 更 新 head 以 删除 哨兵 结 点 (第 39 行 )。 和 部 分 队 
列 一 样 ， 从 哨兵 结 点 的 后 继 中 读 取 值 (第 38 行 )。 如 果 这 个 方法 返回 一 个 值 ， 则 它 的 线性 化 点 
为 它 完成 一 个 成 功 的 compareAndSet( ) 调 用 的 时 刻 (第 39 行 )， 否 则 可 以 在 第 33 行 被 线性 化 。 


tail head 











图 10-13 为 什么 在 图 10-11 的 第 36 行 中 ， 出 队 者 必须 帮助 推进 tai1。 考 虑 这 样 的 场景 ， 其 中 一 
个 正在 向 队列 播 入 结 点 2 的 线程 已 经 让 a 的 next 域 指向 p, 但 还 没有 将 tai1 域 从 a 变 为 b。 
如 果 另 一 个 线程 开始 出 队 ， 它 将 读 取 2 的 值 ， 并 将 head 从 a 改 为 pb， 从 而 在 tai1 还 在 指 
向 a 的 时 候 ， 把 a 结 点 从 队列 中 有 效 地 删除 了 。 为 了 避免 这 种 情况 ， 正 在 出 队 的 线程 
必须 在 重 设 head 之 前 帮助 将 tail 从 a 推进 到 b 


很 容易 说 明 队列 是 无 锁 的 。 每 个 方法 调用 首先 找 出 一 个 未 完成 的 enq( ) 调 用 ， 然 后 尝试 完 
成 它 。 最 坏 的 情形 下 ， 所 有 的 线程 都 试图 移动 队列 的 tail 域 ， 且 其 中 之 一 必须 成 功 。 仅 当 另 
外 一 个 线程 的 方法 调用 在 改变 引用 中 获得 成 功 时 ， 一 个 线程 才 可 能 在 入 队 或 出 队 一 个 结 点 时 
失败 ， 因 此 ， 总 会 有 某 个 方法 调用 成 功 。 这 种 无 锁 的 实现 从 本 质 上 改进 了 队列 的 性 能 ， 无 锁 
算法 的 性 能 比 最 有 效 的 阻塞 算法 还 要 高 。 


10.6 内 存 回收 和 ABA 问 题 


到 现在 为 止 ， 所 有 队列 实现 都 依赖 于 Java 的 垃圾 回收 器 来 重复 利用 那些 已 经 出 队 的 结 点 。 
如 采 我 们 选择 采用 自己 的 内 存 管理 ， 那 么 会 出 现 什 么 样 的 情形 呢 ? 之 所 以 这 样 做 有 以 下 几 个 
原因 。 首 先 ， 像 C 和 C++ 这 些 语 言 并 不 支持 垃圾 回收 。 其 次 ， 即 使 可 以 使 用 垃圾 回收 器 ， 由 类 
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本 身 来 提供 自己 的 内 存 管理 也 往往 具有 更 高 的 效率 ， 特 别 是 在 类 创建 和 释放 许多 小 的 对 象 时 。 
最 后 ， 若 垃圾 回收 进程 不 是 无 锁 的 ， 则 显然 希望 能 提供 自己 的 无 锁 内 存 回收 。 

以 无 锁 方式 循环 结 点 的 一 种 很 自然 的 办 法 就 是 让 每 个 线程 维护 它 自 己 的 由 未 使 用 队列 项 
所 组 成 的 私有 空闲 链表 。 


ThreadLocal<Node> freeList = new ThreadLocal<Node>() { 
protected Node initialValue() { return null; }; 


当 一 个 人 队 线 程 需要 一 个 新 结 点 时 ， 它 尝试 从 线程 本 地 空闲 链表 中 删除 一 个 结 点 。 如 果 
空闲 链表 为 空 ， 则 使 用 new 操 作 分 配 一 个 结 点 。 当 一 个 出 队 线 程 准备 释放 一 个 结 点 时 ， 它 将 该 
结 点 链 入 到 线程 本 地 空闲 链表 。 因 为 链表 是 线程 本 地 的 ， 因 此 不 需要 很 大 的 同步 开销 。 只 要 
每 个 线程 的 入 队 和 出 队 次 数 大 致 相等 ， 这 种 设计 的 效果 就 非常 好 。 如 果 两 种 操作 次 数 不 平 衡 ， 
则 需要 更 加 复杂 的 技术 ， 例 如 定期 从 其 他 线程 窃取 结 点 。 

令 人 惊讶 的 是 ， 如 果 采 用 最 直接 的 方式 回收 结 点 ， 那 么 这 种 无 锁 队 列 将 会 出 错 。 考 虑 图 
10-14 所 描述 的 场景 。 在 图 中， 出 队 线 程 1 发 现 哨 兵 结 点 为 a， 下 一 个 结 点 是 bp。 然后 准备 用 旧 
值 a 和 新 值 b 调 用 compareAndSet( ) 来 修改 head。 在 进入 第 二 步 之 前 ， 其 他 线程 让 b 和 它 的 后 继 
结 点 相继 出 队 ， 并 将 gq 和 4b 放 入 空 闪 池 。 如 图 b 所 示 ， 结 点 a 被 循环 使 用 ， 并 最 终 重新 作为 队列 
的 哨兵 结 点 。 线 程 现在 唤醒 ,调用 compareAndSet()， 由 于 head 的 旧 值 的 确 是 a， 所 以 成 功 返 
回 。 不 幸 的 是 ， 已 经 重 设 head 指 向 了 一 个 被 回收 的 结 点 。 

O 线程 4: 准备 调用 CAS 将 head 从 a 
修改 为 6 
tail head 


@ 线程 8 和 C: 使 5 和 2 出 队 
到 本 地 池 中 





















© 线程 8 和 C: 使 4*、b 和 d 出 队 © 线程 4: CAS 成 功 ,但 错误 地 指向 
仍 在 本 地 池 中 的 4b 


tail head 

















b) 


图 10-14 一 个 ABA 场 景 : 假定 在 无 锁 队 列 算法 中 使 用 回收 结 点 的 本 地 池 。 在 图 4 中 ， 图 10-11 
中 的 出 队 者 线程 4 发 现 哨 兵 结 点 为 4， 下 一 个 结 点 为 ?。( 步 骤 1) 然后 准备 用 旧 值 a 和 
新 值 z 调 用 compareAndSet() 来 修改 head。( 步 又 2) 然而 假定 在 执行 第 二 步 之 前 ， 其 
他 线程 让 b 和 它 的 后 继 结 点 相继 出 队 ， 并 将 ac 和 2 放 入 空闲 了 地。 在 图 b 中 ，( 步 又 3) a 结 
点 被 重新 使 用 ， 并 最 终 重 新 作为 队列 的 哨兵 结 点 。( 步 骤 4) 线程 4 现在 唤醒 ， 调 用 
compareAndSet()， 由 于 head 的 旧 值 的 确 是 a， 所 以 成 功 地 将 head 置 为 b。 现 在 head 
被 错误 地 设置 为 指向 一 个 被 回收 的 结 点 
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称 这 种 现象 为 ABA 问 题 。ABA 现 象 经 常 出 现 ， 特 别 是 在 使 用 类 似 compareAndSet() 这 种 
条 件 同 步 操作 的 动态 内 存 算法 中 。 典 型 的 情形 是 ， 一 个 将 要 被 comapreAndSet( ) 从 a 变 为 的 
引用 又 被 变 回 为 4。 这 样 一 来 ， 即 使 对 数据 结构 的 影响 已 经 产生 ，compareAndSet( ) 调 用 也 将 
成 功 返 回 ， 但 已 不 再 是 想 要 的 结果 。 

解决 这 个 问题 的 一 种 直接 办 法 就 是 对 每 个 原子 引用 附 上 一 个 唯一 的 时 间 稚 。 如 编程 提示 
10.6.1 中 所 述 ，AtomicStampedReference<T> 对 象 将 一 个 指向 T 类 型 对 象 的 引用 和 一 个 整 型 
stamp 封 装 起 来 。 这 些 域 可 以 单独 也 可 以 同时 被 原子 修改 。 


编程 提示 10.6.1 AtomicStampedReference<T> 类 将 一 个 指向 T 类 型 对 象 的 引用 和 一 个 
整 型 stamp 封 装 在 一 起 。 它 扩展 了 AtomicMarkableReference<T> 类 (编程 提示 9.8.1),， 使 
用 整 型 的 时 间 惟 来 替代 布尔 型 的 mark。 

通常 用 时 间 改 来 避免 出 现 ABA 问 题 ， 每 次 修改 对 象 时 ， 就 将 时 间 惟 的 值 加 1， 虽 然 有 
时 就 像 第 11 章 的 LockFreeExchanger 类 一 样 ， 也 用 时 间 惟 来 存放 一 组 有 限 状态 集中 的 一 个 
状态 。 

时 间 改 域 和 引用 域 能 够 被 原子 更 新 ， 或 者 同时 或 者 单独 地 更 新 。 例 如 ， compare- 
AndSet() 方 法 检测 期 望 的 引用 值 和 时 间 惟 值 ， 如 果 两 者 都 成 立 ， 则 用 要 更 新 的 引用 值 和 时 
间 戳 值 来 替换 它们 。 通 常 简 述 为 attemptStamp() 方 法 测试 期 望 的 引用 值 ， 如 果 测 试 成 功 ， 
则 用 一 个 新 的 时 间 惟 来 替换 它 。get() 方 法 有 一 个 很 特别 的 接口 : 它 返回 对 象 的 引用 值 并 将 
时 间 戳 值 存放 在 一 个 整 型 参数 数组 中 。 图 10-15 描 述 了 这 些 方法 的 签名 。 











1 public boolean compareAndSet( T expectedReference, 
2 T newReference, 
3 int expectedStamp, 
4 int newStamp); 
5 public T get(int[] stampHolder); 

6 public void set(T newReference, int newStamp); 





图 10-15 AtomicRefrence<T>2&; compareAndSet() 方 法 和 get() 方 法 。compareAndSet() 方 
法 检测 并 更 新 stamp 和 reference 域 。get() 方 法 返回 封装 的 reference 并 将 stamp 存 
放 在 参数 数组 的 第 0 号 位 置 。set( ) 方 法 则 更 新 封装 的 reference 和 stamp 


在 C 和 C++ 这 些 语言 中 ， 对 于 64 位 系统 结构 可 以 通过 从 指针 中 “窃取 ”位 来 有 效 地 实现 
这 种 功能 性 ， 而 对 于 32 位 系统 结构 则 可 能 需要 间接 引用 。 — 


如 图 10-16 所 示 ， 每 次 进入 循环 时 ，deq( ) 读 取 第 一 个 结 点 、 下 一 个 结 点 和 最 后 一 个 结 点 
的 引用 值 和 时 间 戳 值 (第 6~8 行 )。 然 后 使 用 compareAndSet() 同 时 比较 引用 和 时 间 惟 (第 17 
行 )。 每 次 使 用 compareAndSet( ) 更 新 引用 时 将 时 间 惟 加 1 (第 14 行 和 第 17 行 )。9S 

在 许多 同步 场景 中 ， 都 会 出 现 ABA 问 题 ， 而 不 仅仅 是 那些 包含 条 件 同 步 的 情形 。 例 如 ， 
当 仅 使 用 加 载 /存储 操作 时 也 可 能 会 出 现 ABA 问 题 。 对 于 那些 条 件 同步 操作 ， 例 如 在 有 些 系统 
结构 中 使 用 的 链接 加 载 / 条 件 存储 〈 见 附录 B)， 可 以 通过 检测 一 个 值 在 两 个 时 间 点 之 间 是 否 被 
改变 过 ， 而 不 是 检测 这 个 值 在 两 个 时 间 点 是 否 刚好 相同 的 方式 来 避免 ABA 问 题 。 
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1 public T deq() throws EmptyException { 
2 int[] lastStamp = new int[1]; 
3 int[] firstStamp = new int[1]; 
4 int[] nextStamp = new int[1]; 
5 while (true) { 
6 Node first = head.get(firstStamp) ; 
7 Node last = tail.get(lastStamp); 
8 Node next = first.next.get(nextStamp) ; 
9 if (first == last) { 
10 if (next == null) { 
11 throw new EmptyException(); 
12 } 
13 tail.compareAndSet (last, next, 
14 JastStamp[0], lastStamp[0]+1); 
15 } else { 
16 T value = next.value; 
17 if (head.compareAndSet (first, next, firstStamp[0], 
firstStamp[0]+1)) { 
18 free(first); 
19 return value; 
20 } 
21 } 
22 } 
23 } 
Lo = | 








10-16 LockFreeQueueRecycle<T> 类 : ded( ) 方 法 使 用 时 间 玲 来 避免 ABA 问 题 


一 种 基本 的 同步 队列 


现在 来 考虑 一 种 紧密 相关 的 同步 方式 。 一 个 或 多 个 生产 者 线程 生产 数据 元 素 ， 并 由 一 个 
或 多 个 消费 者 线程 按照 先进 先 出 的 次 序 取 出 。 但 是 ， 这 里 的 生产 者 和 消费 者 之 间 必 须 相互 会 
D: 向 队列 中 放 和 一 个 元 素 的 生产 者 应 阻塞 直到 该 元 素 被 另外 一 个 消费 者 取出 ， 反 之 亦 然 。 
这 种 会 合同 步 在 CSP 和 Ada 语 言 中 是 内 建 的 。 

图 10-17 描 述 了 SynchronousQueue<T>， 这 是 一 种 基于 管 程 的 同步 队列 实现 。 它 有 如 下 几 
个 域 : item 是 第 一 个 等 待 出 队 的 元 素 ，enqueuing 是 入 队 者 用 来 在 它们 之 间 同 步 的 布尔 值 ， 
lock 是 用 来 互 斥 的 锁 ，condition 用 于 阻塞 部 分 方法 。 如 果 enq( ) 方 法 发 现 enqueuing 为 true 
(第 10 行 )， 则 表示 另 一 个 入 队 者 已 经 提供 了 一 个 元 素 并 正在 等 待 与 一 个 出 队 者 会 合 ， 所 以 该 
入 队 者 将 会 重复 执行 释放 锁 、 睡 眼 、 检 查 enqueuing 是 否 为 false (第 11 行 ) 的 操作 。 当 条 件 
满足 ， 入 队 者 将 enqueuing 设 置 为 rue， 这 将 锁定 其 他 入 队 者 直到 当前 会 合 完成 ， 并 设置 item 
指向 新 元 素 (第 12~ 13 行 )。 然 后 ， 通 知 所 有 的 等 待 线程 (第 14 行 )， 并 等 待 直到 item 变 为 
null 《第 15~ 16 行 )。 当 等 待 结束 时 ， 会 合 已 经 发 生 ， 所 以 入 队 者 设置 enqueuing 为 fojse， 通 
知 所 有 的 等 待 线程 并 返回 (第 17 和 19 行 )。 

deq() 方 法 简单 地 等 待 item 不 为 空 (第 26 ~27 行 )， 记 录 该 数据 元 素 ， 将 item 设 为 null， 
然后 在 返回 该 元 素 之 前 通知 所 有 的 等 待 线程 (第 28 ~ 31747), 

由 于 这 个 队列 的 设计 非常 简单 ， 所 以 它 的 同步 代价 也 很 高 。 在 每 个 线程 可 能 唤醒 另 一 个 
线程 的 时 间 点 ， 无 论 是 入 队 者 还 是 出 队 者 都 会 唤醒 所 有 的 等 待 线程 ， 从 而 唤醒 的 次 数 是 等 待 
线程 数目 的 平方 。 尽 管 可 以 使 用 条 件 对 象 来 减少 唤醒 次 数 ， 但 由 于 仍 需要 阻塞 每 次 调用 ， 所 
以 开销 很 大 。 
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1 public class SynchronousQueue<T> { 
2 T item = null; 

3 boolean enqueuing; 

4 Lock lock; 

5 Condition condition; 

6 ae 

7 public void enq(T value) { 
8 Tock. lock{); 

9 try { 

10 while (enqueuing) 

11 condition.await(); 
12 enqueuing = true; 

13 item = value; 

14 condition.signalAll(); 
15 while (item != null) 
16 condition. await(); 
17 enqueuing = false; 

18 condition.signalAl](); 
19 } finally { 
20 Jock.unlock(); 
21 } 
22 } 
23 public T deq() { 
24 lock. lock{); 

25 try { 
26 while (item == null) 
27 condition.await()}; 
28 F t = item; 
29 item = null; 

30 condition.signalAll(); 
31 return t; 
32 } finally { 
33 Tock.unlock(); 
34 } 

35 } 

36 } | 





图 10-17 SynchronousQueue<T>2& 


10.7 双重 数据 结构 


为 了 减少 同步 队列 的 同步 开销 ， 考 虑 另外 一 种 同步 队列 的 实现 ， 它 将 enq( ) 和 deq() 方 法 
分 成 两 步 来 完成 。 下 面 是 出 队 者 如 何 从 一 个 空 队列 中 删除 元 素 的 过 程 。 第 一 步 ， 它 将 一 个 保 
留 对 象 放 和 队列， 表示 该 出 队 者 正在 等 待 一 个 准备 与 之 会 合 的 入 队 者 。 然 后 ， 出 队 者 在 这 个 
保留 对 象 的 flag 标 志 上 旋转 。 第 二 步 ， 当 一 个 人 队 者 发 现 该 保留 时 ， 它 通过 存放 一 个 元 素 并 设 
置 保留 对 象 的 flag 来 通知 出 队 者 完成 这 个 保留 。 同 样 ， 入 队 者 能 够 通过 创建 自己 的 保留 对 象 ， 
并 在 保留 对 象 的 flag 标 志 上 旋转 来 等 待 会 合同 伴 。 在 任意 时 刻 ， 队 列 本 身 或 者 包含 enq( ) 的 保 
留 或 deq( ) 的 保留 ， 或 者 为 空 。 

这 种 结构 称 为 双重 数据 结构 ， 其 原因 在 于 方法 是 通过 两 个 步骤 来 生效 的 : 保留 和 完成 。 
该 结构 具有 许多 很 好 的 性 质 。 首 先 ， 正 在 等 待 的 线程 可 以 在 一 个 本 地 缓存 标志 上 旋转 ， 而 这 
是 可 扩展 性 的 基础 。 其 次 ， 它 很 自然 地 保证 了 公平 性 。 保 留 按照 它们 到 达 的 次 序 来 排队 ， 从 
而 保证 请 求 也 按照 同样 的 顺序 完成 。 注 意 这 种 数据 结构 是 可 线性 化 的 ， 因 为 每 个 部 分 方法 调 
用 在 它 完 成 时 是 可 以 排序 的 。 

该 队列 可 以 用 结 点 组 成 的 链表 来 实现 ， 其 中 结 点 或 者 表示 一 个 等 待 出 队 的 元 素 或 者 表示 
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一 个 等 待 完成 的 保留 (图 10-18)， 由 结 点 的 type 域 指定 。 任 何 时 候 ， 


有 相同 的 类 型 : 





1 

2 private class Node { 

3 volatile NodeType type; 

4 volatile AtomicReference<T> item; 
5 volatile AtomicReference<Node> next; 
6 Node(T myItem, NodeType myType) { 
7 item 

8 

9 

0 

1 


type = myType; 





} 
} 





图 10-18 SynchronousDualQueue<T>2E; 队列 结 点 


private enum NodeType {ITEM, RESERVATION}; 


= new AtomicReference<T>(myI tem) ; 
next = new AtomicReference<Node> (nul) ; 
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所 有 的 队列 结 点 都 应 具 


或 者 全 部 是 在 等 待 出 队 的 元 素 ， 或 者 全 部 是 等 待 完成 的 保留 。 





AN 


当 一 个 元 素 入 队 时 ， 结 点 的 item 域 存放 该 元 素 ， 当 该 元 素 出 队 时 ， 结 点 的 item 域 被 重新 


设置 为 null。 


当 一 个 保留 入 队 时 ， 结 点 的 tem 域 为 nul1， 当 保留 被 一 


item 域 被 重新 设置 为 一 个 元 素 。 
图 10-19 描 述 了 SynchronousDualQueue 的 构造 函数 及 enq() 方 法 (deq() 方 法 相 类 似 )。 正 





个 入 队 者 完成 时 ， 7A 结 点 的 





1 public SynchronousDualQueue() { 

2 Node sentinel = new Node(null, NodeType. ITEM) ; 
3 head = new AtomicReference<Node>(sentinel) ; 

4 tail = new AtomicReference<Node>(sentinel) ; 

5 } 

6 public void enq(T e) { 

7 Node offer = new Node(e, NodeType. ITEM) ; 

8 while (true) { 

9 Node t = tail.get(), h = head.get(); 

10 if (h == t || t.type == NodeType.ITEM) { 

11 Node n = t.next.get(); 

12 if (t == tail.get()) { 

13 if fe != null) { 

14 tail.compareAndSet(t, n); 

15 } else if (t.next.compareAndSet(n, offer)) { 
16 tail.compareAndSet(t, offer); 

17 while (offer.item.get() == e); 

18 h = head.get(); 

19 if (offer == h.next.get(}) 

20 head.compareAndSet (h, offer); 

21 return; 

22 } 

23 } 

24 } else { 

25 Node n = h.next.get(); 

26 if (t != tail.get{) || h != head.get() || n == null) { 
27 continue; 

28 } 

29 boolean success = n.item.compareAndSet (null, e); 
30 head. compareAndSet(h, n); 

31 if (success) 

32 return; 

33 } 

34 } 

35 } 





图 10-19 SynchronousDualQueue<T>2€: enq() 方 法 和 构造 函数 
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如 之 前 讨论 过 的 队列 一 样 ，head 域 总 是 指向 一 个 哨兵 结 点 ， 该 结 点 作为 一 个 空间 占有 者 而 存 
在 ， 其 实际 值 没 有 任何 意义 。 当 head 和 tail 相 一 致 时 队列 为 空 。 构 造 函 数 创建 一 个 具有 任意 
值 的 哨兵 结 点 ， 并 i 上 head 和 tail 都 指向 该 结 点 。 

enq ) 方 法 首先 检查 队列 是 否 为 空 或 者 是 否 包含 等 待 出 队 的 已 和 人 队 元 素 (第 10 行 )。 如 果 条 
件 满足 ， 则 像 无 锁 队 列 一 样 ， 读 队列 的 tai1 域 (第 11 行 )， 并 确认 读 的 值 是 一 致 的 (第 12 行 )。 
如 果 tai1 域 没有 指向 队列 的 最 后 一 个 结 点 ， 则 推进 tai1 域 并 重新 开始 (第 13 一 14 行 )。 否 则 ， 
enq() 方 法 尝试 通过 重 设 尾 结 点 的 next 域 指向 新 结 点 ， 把 新 结 点 添加 到 队 尾 (第 15 行 )。 如 果 成 
功 ， 就 尝试 着 推进 tai1 指 向 新 增加 的 结 点 (第 16 行 )， 然 后 旋转 ， 等 待 一 个 出 队 者 通过 设置 该 结 
点 的 item 域 为 ml 来 通知 该 元 素 已 经 出 队 。 一 旦 元 素 出 队 ， 该 方法 就 尝试 将 它 的 结 点 设 为 哨兵 结 
点 来 进行 清理 。 最 后 一 步 仅 仅 用 来 提高 性 能 ， 因 为 不 管 是 否 推进 了 head 域 ， 该 实现 总 是 正确 的 。 

然而 ， 如 果 enq( ) 方 法 发 现 队 列 中 有 正在 等 待 完成 的 出 队 者 的 保留 ， 那 么 它 就 找 出 一 个 保 
留 并 完成 。 由 于 队列 的 head 结 点 是 一 个 其 值 无 任何 意义 的 哨兵 结 点 ， 所 以 enq( ) 读 head 的 后 继 
结 点 (第 25 行 )， 确 认 读 到 的 值 是 一 致 的 (第 26 ~28 行 )， 并 试 着 将 结 点 的 item 域 从 null 改 为 
要 入 队 的 元 素 。 不 管 这 一 步 是 否 成 功 ， 该 方法 都 试 着 推进 head (第 30 行 )。 如 果 compare- 
AndSet( ) 调 用 成 功 (第 29 行 )， 则 该 方法 返回 ， 否 则 重 试 。 


10.8 本 章 注释 


部 分 队列 综合 运用 了 Doug Lea[98] 提 出 的 技术 以 及 Maged Michael 和 Michael Scott[115] 的 
算法 中 所 采用 的 技术 。 无 锁 队 列 是 Maged Michael 和 Michael Scott[115] 所 提出 队列 算法 的 一 种 
简化 版 本 。 同 步 队 列 实现 则 来 自 Bill Scherer, Doug Lea 和 Michael Scott[136] 的 算法 。 


10.9 习题 


习题 119. 修改 SynchronousDualQueue<T> 类 ， 使 它 能 适用 于 null 元 素 。 

习题 120. 考虑 在 第 3 章 中 所 讲 的 针对 单个 人 队 者 和 单个 出 队 者 的 简单 无 锁 队 列 。 图 10-20 描 述 了 该 
队列 。 

这 个 队列 是 可 阻塞 的 ， 即 从 一 个 空 队列 中 删除 一 个 元 素 或 者 向 一 个 满 队 列 中 添加 一 个 元 素 

都 会 引起 线程 阻塞 (旋转 )。 该 队列 的 特殊 之 处 在 于 它 只 需要 加 载 /存储 而 不 需要 功能 更 加 强大 的 
读 - 改 一 写 同 步 操作 。 是 否 需要 使 用 内 存 路 障 ? 如 果 不 需要 ， 请 解释 原因 ， 如 果 需 要 ， 请 指出 在 
代码 中 的 哪个 地 方 需要 ， 为 什么 ? 

习题 121. 设计 一 种 使 用 数组 而 不 是 使 用 链表 的 基于 锁 的 有 界 队 列 实 现 。 
1. 允许 为 head 和 tail 各 使 用 一 个 锁 的 并 行 方式 。 
2. 试 着 将 你 的 算法 改 为 无 锁 的 ， 在 什么 地 方 将 会 遇 到 困难 ? 

习题 122. 考虑 图 10-8 中 所 描述 的 基于 锁 的 无 界 队列 的 deq( ) 方 法 。 当 检验 队列 为 非 空 时 ， 是 否 必 须 
获得 锁 ? 为 什么 ? 

习题 123. 在 但 丁 的 《炼狱 》 中 ， 他 描述 了 一 次 到 地 狱 的 旅行 。 在 最 近 发 现 的 一 个 章节 中 ， 他 遇 到 
了 五 个 人 ， 围 着 一 张 桌子 坐 着 ， 桌 子 中 央 有 一 负 汤 。 尽 管 每 个 人 都 有 一 个 勺子 可 以 够 到 饶 子 ， 
但 每 个 勺子 的 手柄 都 长 过 了 人 的 手臂 ， 因 此 每 个 人 都 不 能 自己 喝 。 他 们 都 很 俄 并 且 很 绝望 。 
{AT REM: “AT ARITA AEE th AWE? ” 
余下 的 章节 没有 找到 。 
1. 写 一 个 算法 允许 这 些 不 幸 的 人 互相 喂食 ， 两 个 或 两 个 以 上 的 人 不 能 同时 喂 同 一 个 人 。 你 的 算 


法 必须 是 无 饥饿 的 。 
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2. 讨论 你 所 设计 算法 的 优 缺 点 。 它 是 集中 式 的 还 是 分 布 式 的 ? 争 用 高 还 是 争 用 低 ? 确定 的 还 是 


随机 的 ? 





TOL items; 


} 





class TwoThreadLockFreeQueue<T> { | 
int head = 0, tail = 0; 


1 

2 

3 

4 public TwoThreadLockFreeQueue(int capacity) { 
5 head = 0; tail = 0; 

6 items = (T[]) new Object[capacity]; 

7 

8 


public void enq(T x) { 





9 while (tail - head == items.length) {}; 
10 items[tail % items.length] = x; 
11 tailt+; 
12 } 
13 public Object deq() { 
14 while (tail - head == 0) {}; 
15 Object x = items[head % items.length]; 
16 headt++; 
17 return x; 
18 } 
19 } 
= —— 





图 10-20 一 种 对 于 单 入 队 者 和 单 出 队 者 具有 阻塞 语义 的 无 锁 FIFO 队 列 。 该 队列 在 一 个 数组 中 
实现 。 初 始 时 head 域 和 tai1 域 相等 且 队 列 为 空 。 如 果 head 和 tail1 的 差 值 等 于 容量 ， 
则 队列 为 满 。enq( ) 方 法 读 head 域 ， 如 果 队 列 为 满 ， 则 重复 检查 head， 直 到 队列 有 空 
位 置 为 止 。 接 着 将 对 象 放 入 数组 中 ， 将 tai1 域 加 1。deq( ) 方 法 的 工作 过 程 与 之 相 类 似 


习题 124. 考虑 无 锁 队 列 enq( ) 方 法 和 deq( ) 方 法 的 可 线性 化 点 。 
1. 可 以 将 返回 值 被 从 一 个 结 点 中 读 的 时 刻 作为 一 个 成 功 的 deq( ) 方 法 的 可 线性 化 点 吗 ? 


2. 可 以 将 tail 被 更 新 (可 能 被 其 他 线程 ) 
的 时 刻 作为 enq( ) 方 法 的 可 线性 化 点 吗 
(考虑 若 它 发 生 在 enq( ) 执 行 过 程 中 的 情 
形 ) ? 讨论 你 的 方案 。 

习题 125. 考虑 图 10-21 所 示 的 无 界 队列 实现 。 

这 个 队列 是 可 阻塞 的 ， 即 直到 deq( ) 方 法 

发 现 一 个 元 素 出 队 之 前 不 会 返回 。 

该 队列 有 两 个 域 : items 是 一 个 很 大 

的 数组 ，tai1 则 是 数组 中 下 一 个 没有 被 使 

用 的 元 素 的 索引 。 

1. enq( ) 和 deq( ) 方 法 是 无 等 待 的 吗 ? 如 
果 不 是 ， 那 么 是 无 锁 的 吗 ? 请 解释 原 
因 。 

2. 找 出 enq() 和 deq( ) 方 法 的 可 线性 化 点 。 
(注意 ， 它 们 可 能 与 执行 相关 。) 











| 1 public class HWQueue<T> { 
2 AtomicReference<T>[] items; 
3 AtomicInteger tail; 
4 ‘ane 
5 public void enq(T x) { 
6 int i = tail.getAndIncrement(); 
7 items[i].set(x); 741 
8 
9 public T deq() { 242 
10 while (true) { 
11 int range = tail.get(); 
12 for (int i = 0; i < range; i++) { 
13 T value = items[i].getAndSet (null); 
14 if (value != null) { 
15 return value; 
16 } 
17 } 
18 } 
19 } 
20 } 
l 





图 10-21 习题 125 中 的 队列 eae 
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并 发 酉 和 消除 


11.1 引言 


Stack<T> 类 是 一 组 数据 项 (类 型 为 1) 的 集合 ， 它 提供 了 满足 后 进 先 出 (LIFO) 性 质 的 
push( ) 方 法 和 pop( ) 方 法 : 最 后 一 个 人 栈 的 数据 项 最 先 出 栈 。 本 章 讨论 如 何 实 现 并 发 栈 。 初 看 
起 来 ， 栈 似乎 不 可 能 支持 并 发 性 ， 其 原因 在 于 push( ) 和 pop( ) 调 用 似乎 需要 在 栈 顶 同步 。 

然而 令 人 不 可 思议 的 是 ， 栈 本 身 并 不 是 顺序 的 。 本 章 将 阐述 如 何 实现 并 发 栈 ， 它 能 获得 
高 度 的 并 行 性 。 作 为 对 问题 研究 的 开始 ， 首 先 来 考虑 如 何 构建 一 个 无 锁 的 栈 ， 其 中 和 人 栈 和 出 
栈 操作 需要 在 单一 的 单元 上 进行 同步 。 


11.2 无 锁 的 无 界 栈 


图 11-1 描 述 了 一 个 并 发 的 LockFreeStack 类 ， 其 代码 分 别 由 图 11-2、 图 11-3 和 图 11-4 给 出 。 
该 无 锁 栈 是 一 个 链表 ， 其 中 top 域 指向 链表 的 第 一 个 结 点 ( 若 栈 为 空 则 为 maz11) 。 为 简单 起 见 ， 
通常 假定 向 栈 中 增加 一 个 null 是 非法 的 。 


top 


a 
A:push() 、、 
->[Value[|—>|vaueN 











top a) 
A:pop() 
*-»[ value | |}—> value H value Ñ 


b) 


图 11-1 无 锁 栈 。 在 a 中 ， 一 个 线程 通过 对 top 域 调用 compareAndSet( ) 将 值 4: 压 入 栈 中 。 在 b 中 ， 一 个 线 
程 通过 对 top 域 调用 compareAndSet( ) 将 值 a 从 栈 中 弹出 


试图 从 空 栈 中 删除 一 个 数据 项 的 pop( ) 调 用 将 会 抛 出 一 个 异常 。push( ) 方 法 首先 创建 一 个 
新 结 点 (第 13 行 )， 然 后 调用 tryPush( ) 来 尝试 将 top 引 用 从 当前 的 栈 顶 指向 其 后 继 。 如 果 
tryPush( ) 成 功 ， 则 push() 调 用 将 会 返回 ， 否 则 ， 在 后 退 以 后 重新 进行 tryPush() 尝 试 。 
pop( ) 方 法 调用 tryPop() ,而 tryPop() 又 使 用 compareAndSet () 来 尝试 删除 栈 中 的 第 一 个 结 点 。 
如 果 成 功 ， 则 返回 结 点 ， 否 则 返回 nul1。( 若 栈 为 空 则 抛 出 一 个 异常 。) tryPop( ) 方 法 被 不 断 
地 调用 直到 它 成 功 为 止 ， 此 时 push( ) 返 回 被 删除 结 点 的 值 。 

如 第 7 章 中 所 述 ， 使 用 指数 后 退 (第 7 章 图 7-5) 可 以 显著 地 减 小 在 top 域 上 的 争 用 。 因 此 ， 
当 调用 tryPush( ) 和 tryPop( ) 失 败 后 ，push( ) 方 法 和 pop( ) 方 法 就 进行 后 退 。 





第 11 章 ”并 发 栈 和 消除 175 




















1 public class LockFreeStack<T> { 
2 AtomicReference<Node> top = new AtomicReference<Node>(nul1); 
3 static final int MIN DELAY = ...; 
4 static final int MAX DELAY = ...; 
5 Backoff backoff = new Backoff(MIN DELAY, MAX DELAY); 
6 
7 protected boolean tryPush(Node node) { 
8 Node oldTop = top.get(); 
9 node.next = oldTop; 
10 return(top.compareAndSet(oldTop, node)); 
11 } 
12 public void push(T value) { 
13 Node node = new Node(value); 
14 while (true) { 
15 if (tryPush(node)) { 
16 return; 
17 } else { 
18 backoff .backoff(); 
19 } 
20 } 
21 } 
图 11-2 LockFreeStack<T>3&; 在 push() 方 法 中 ， 线 程 在 调用 tryPush( ) 修 改 top 引 用 和 使 用 244 
第 7 章 图 7-5 的 Backoff 类 进行 后 退 之 间 交 替 执 行 246 
该 实现 是 无 锁 的 ， 因 为 仅 当 已 有 无 限 多 次 成 功 的 调 
用 修改 了 栈 的 top 域 时 ， 线 程 才 不 能 完成 push( ) 或 T 
pop( ) 方 法 调用 。push() 和 pop( ) 方 法 的 线性 化 点 则 是 3 pub1ic Node next; 
成 功 的 compareAndSet( ) 调 用 ， 或 对 空 栈 调 用 pop( ) 方 pei ile ei 
法 抛 出 异常 的 时 刻 。 注 意 pop() 的 compareAndSet() 调 6 next = null; 
7 
用 不 会 出 现 ABA 问 题 ( 见 第 10 章 ) ， 这 是 因为 Java 的 垃 cg 
圾 回报 器 能 够 确保 只 要 一 个 结 点 对 另 一 个 线程 是 可 达 
> g ge 
的 ， 则 该 结 点 就 不 会 被 同一 个 线程 重用 。 如 何 设计 一 种 BATS Feet eae 
不 用 垃圾 回收 器 就 能 避免 ABA 问 题 的 无 锁 栈 则 留 作 习 题 。 
1 protected Node tryPop() throws EmptyException { 
2 Node oldTop = top.get(); 
3 if (oldTop == null) { 
4 throw new EmptyException(); 
5 } 
6 Node newTop = oldTop.next; 
7 if (top.compareAndSet(oldTop, newTop)) { 
8 return oldTop; 
9 } else { 
10 return null; 
11 } 
12 } 
13 public T pop() throws EmptyException { 
14 while (true) { 
15 Node returnNode = tryPop(); 
16 if (returnNode != null) { 
17 return returnNode. value; 
18 } else { 
19 backoff .backoff(); 
20 } 
21 } 
22 } 
247 


图 11-4 LockFreeStack<T>2&; pop() 方 法 在 尝试 修改 top 域 和 后 退 之 间 交 替 执 行 


N 
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11.3 消除 


上 述 LockFreeStack 实 现 的 可 扩展 性 非常 差 ， 并 不 仅仅 因为 栈 的 top 域 是 一 个 争 用 源 ， 而 
BA Aik PR AE OM RAS 方法 调用 只 能 一 个 接 一 个 地 前 进 ， 按 照 对 top 域 的 
compareAndSet( ) 成 功 调用 次 序 来 排序 。 

虽然 指数 后 退 能 够 有 效 地 减少 争 用 ， 但 它 并 不 能 减轻 顺序 瓶颈 的 压力 。 为 了 使 栈 能 够 并 
行 ， 我 们 利用 栈 的 这 样 一 种 现象 : 如 果 一 个 push( ) 后 面 紧 跟着 一 个 pop()， 则 这 两 个 操作 可 以 
互相 抵消 ， 栈 的 状态 不 改变 。 这 就 好 像 两 个 操作 从 来 没有 发 生 过 一 样 。 如 果 能 够 采用 某 种 办 
法 使 得 并 发 的 入 队 和 出 队 操 作对 相互 抵消 ， 则 正在 调用 push( ) 的 线程 就 可 以 在 不 改变 栈 本 身 
的 情况 下 与 正在 调用 pop( ) 的 线程 交换 数据 。 我 们 称 这 样 的 两 个 调用 相互 消除 。 

如 图 11-5 所 示 ， 线 程 通过 E1iminationArray 来 消除 其 他 的 线程 ， 其 中 ,线程 随机 地 选取 
数组 项 来 尝试 发 现 互补 的 调用 。 互 补 的 push() 和 pop() 调 用 对 则 相互 交换 数值 并 返回 。 如 果 一 
个 线程 的 调用 不 能 消除 ， 则 或 者 是 因为 找 不 到 一 个 配对 调用 ,或 者 是 因为 所 找 配对 的 类 型 不 
对 例如， 一 个 push( ) 遇 到 一 个 push( )) ， 这 种 线程 或 者 重新 在 一 个 新 单元 上 再 次 尝试 ， 或 者 
访问 共享 的 LockFreeStack。 这 种 由 数组 和 共享 栈 组 成 的 数据 结构 是 可 线性 化 的 ， 因 为 共享 栈 
是 可 线性 化 的 ， 并 且 可 以 排序 被 消除 的 调用 ， 就 好 像 它 们 发 生 在 交换 数值 的 时 间 点 。 




















C:pop) ~. 
A:return(b) 
A 
A:pop() ~ _ i 
B:push(b) - ~~ 
X 
B:return() 








图 11-5 El1iminationBackoffStack 类 。 每 个 线程 在 数组 中 随机 地 选择 一 个 单元 。 如 果 线 程 A 
的 pop() 和 线程 8 的 push() 几 乎 同时 到 达 同 一 个 单元 ， 它 们 不 必 访 问 共 享 的 
LockFreeStack 就 可 以 交换 值 。 线 程 C 由 于 没有 遇见 另 一 个 线程 ， 最 终 将 会 对 共享 的 
LockFreeStack 执 行 出 栈 操作 


可 以 将 E1iminationArray 作 为 一 种 在 共享 LockFreeStack 上 的 后 退 模式 。 每 个 线程 首先 
访问 LockFreeStack， 如 果 它 的 调用 失败 〈( 即 compareAndSet( ) 失 败 ) ， 则 该 线程 尝试 使 用 数 
组 而 不 是 采用 简单 的 后 退 来 消除 它 的 调用 。 如 果 没 有 能 够 消除 它 自己 ， 则 该 线程 再 次 访问 
LockFreeStack， 等 等 。 这 种 结构 被 称 为 E1iminationBackoffStack 。 


11.4 后 退 消除 栈 


下 面 讲 述 如 何 构造 E1iminationBackoffStack ， 这 是 一 种 无 锁 可 线性 化 的 栈 实 现 。 

我 们 可 以 从 一 个 故事 中 得 到 启发 ， 这 个 故事 讲述 两 个 朋友 在 选举 日 讨论 政治 问题 ， 每 个 
人 都 想 劝 说 对 方 改变 立场 ， 但 都 不 能 成 功 。 

最 后 ， 其 中 一 个 人 对 另 一 个 人 说 :“ 瞧 ! 既然 我 们 在 所 有 的 政治 问题 上 的 观点 都 不 相同 ， 
那么 我 们 的 选票 自然 也 就 互相 抵消 了 ， 为 什么 不 节省 我 们 两 个 的 上 时间， 今天 都 不 去 投票 昵 ?” 

另 一 个 人 高 兴 地 同意 了 ， 于 是 两 个 人 分 开 了 。 
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不 入， 第 一 个 人 的 朋友 听 到 这 个 谈话 后 对 他 说 :“ 你 的 这 个 建议 很 公平 。 

“并 不 一 定 ,” 后 者 说 ,“ 这 是 我 今天 第 三 次 这 样 做 了 。 

我 们 的 构造 中 所 采用 的 原理 与 这 个 故事 是 一 样 的 。 我 们 希望 允许 包含 人 栈 和 出 栈 操 作 的 
线程 协商 并 抵消 ， 但 必须 避免 一 个 线程 可 以 和 多 个 线程 达成 约定 的 情形 。 为 此 ， 我 们 使 用 一 
种 称 为 交换 机 的 协调 结构 来 实现 E1iminationArray。 所 谓 交换 机 ， 就 是 只 允许 两 个 线程 (不 
能 再 多 ) 会 合并 交换 数据 的 对 象 。 

在 第 10 章 的 同步 队列 中 已 学 过 如 何 通 过 锁 来 交换 值 。 此 处 需要 一 种 无 锁 交 换 ， 即 交换 时 
线程 旋转 而 不 是 阻塞 ， 因 为 希望 它们 只 等 待 很 短 的 时 间 。 


11.4.1 无 锁 交 换 机 


一 个 LockFreeExchanger<T> 对 象 允 许 两 个 线程 交换 类 型 为 T 的 值 。 如 果 线 程 A 以 参数 a 调 
用 对 象 的 exchange( ) 方 法 ， 而 线程 以 参数 b 调 用 同一 个 对 象 的 exchange( ) 方 法 ， 则 线程 4 的 
调用 会 返回 值 ?»， 线 程 8 的 调用 会 返回 值 4a。 从 一 个 更 高 的 层次 来 看 ， 交 换 机 让 第 一 个 到 达 的 线 
程 写 入 自己 的 值 ， 然 后 旋转 等 待 直 到 第 二 个 线程 到 来 。 随 后 ， 第 二 个 线程 检测 到 第 一 个 线程 
在 等 待 ， 于 是 读 取 第 一 个 线程 写 和 的 值 ， 并 向 交换 机 发 出 信号 。 现 在 两 个 线程 都 读 取 了 对 方 
的 值 ， 然 后 返回 。 如 果 第 二 个 线程 没有 出 现 ， 第 一 个 线程 调用 则 可 能 会 超时 ， 从 而 使 得 若 在 
一 个 合理 的 时 间 内 无 法 完成 交换 ， 线 程 就 能 离开 交换 机 并 继续 前 进 。 

图 11-6 描 述 了 LockFreeExchanger<T> 类 。 它 具有 一 个 单一 的 AtomicStampedReference<T> 
类 型 的 域 s1ot 。 该 交换 机 有 三 种 可 能 的 状态 : EMPTY、BUSY 或 WAITING6。 该 引用 的 时 间 惟 记录 
了 交换 机 的 状态 (第 14 行 )。 交 换 机 的 主 循环 在 超时 前 一 直 执行 ， 直 到 timeout 抛 出 一 个 异常 从 
而 结束 循环 (第 10 行 )。 同 时 ， 一 个 线程 读 取 slot 的 状态 (第 12 行 )， 并 按 如 下 流程 进行 处 理 : 

。 如 果 状 态 为 EMPTY， 则 该 线程 尝试 将 它 的 数据 项 放 入 槽 中 ， 并 调用 compareAndSet( ) 
(第 16 行 ) 将 状态 设置 为 WAITIN6。 如 果 失 败 ， 则 说 明 某 个 其 他 线程 成 功 ， 该 线程 重 试 。 
如 果 成 功 (第 17 行 )， 则 说 明 它 的 数据 项 在 槽 中 且 状 态 为 WAITING ， 所 以 该 线程 旋转 等 待 
另 一 个 线程 完成 交换 。 如 果 另 一 个 线程 出 现 ， 它 将 取出 槽 中 的 数据 项 ， 并 用 自己 的 数据 
项 替换 它 ， 把 状态 设置 为 BUSY (第 19 行 )， 通 知 等 待 的 线程 交换 已 经 完成 。 等 待 的 线程 
将 消耗 掉 该 数据 项 并 把 状态 重新 设置 为 0。 对 于 empty( ) 的 重 设 只 需要 一 个 简单 的 写 操作 
就 可 以 了 ， 因 为 等 待 的 线程 是 唯一 能 将 状态 从 BUSY 变 为 EMPTY (第 20 行 ) 的 线程 。 如 果 
没有 其 他 线程 出 现 ， 等 待 线程 需要 将 槽 的 状态 重新 设置 为 EMPTY。 这 个 状态 改变 需要 调 
用 compareAndSet( )， 因 为 其 他 线程 有 可 能 试图 通过 把 状态 从 WAITIN6 变 为 BUSY (第 24 
行 ) 来 进行 交换 。 如 果 这 个 调用 成 功 ， 则 产生 一 个 超时 异常 。 而 如 果 失 败 ， 则 说 明基 个 
正在 交换 的 线程 必定 已 出 现 ， 所 以 该 等 待 的 线程 完成 了 交换 (第 26 行 )。 

。 如 果 状 态 为 WAITING， 则 说 明 某 个 线程 正在 等 待 且 槽 中 包含 它 的 数据 项 。 该 线程 取出 数 
据 项 ， 并 试图 通过 调用 compareAndSet 将 状态 从 WAITING 变 为 BUSY 来 用 它 自己 的 数据 项 
替换 槽 中 的 数据 项 (第 34 行 )。 如 果 有 另外 一 个 线程 成 功 或 按照 一 个 定时 重 设 状态 为 
EMPTY， 则 该 调用 就 会 失败 。 如 果 是 这 样 的 话 ， 该 线程 必须 重 试 。 如 果 它 的 确 成 功 地 将 
状态 变 为 BUSY， 则 返回 数据 项 。 

。 如 果 状 态 为 BUSY， 则 说 明 有 两 个 其 他 的 线程 正在 使 用 这 个 槽 进行 交换 ， 因 此 该 线程 必须 
重 试 (第 37 行 )。 
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1 public class LockFreeExchanger<T> { 
2 static final int EMPTY = ..., WAITING = ..., BUSY = ...; 








3 AtomicStampedReference<T> slot = new AtomicStampedReference<T>(null, 0); 
4 public T exchange(T myItem, long timeout, TimeUnit unit) 
5 throws TimeoutException { 
6 long nanos = unit.toNanos (timeout); 
7 long timeBound = System.nanoTime() + nanos; 
8 int[] stampHolder = {EMPTY}; 
9 while (true) { 
10 if (System.nanoTime() > timeBound) 
11 throw new TimeoutException(); 
12 T yritem = slot.get(stampHolder); 
13 int stamp = stampHolder[0]; 
14 switch(stamp) { 
15 case EMPTY: 
16 if (slot.compareAndSet(yrItem, myItem, EMPTY, WAITING)) { 
17 while (System.nanoTime() < timeBound) { 
18 yritem = slot.get(stampHolder); 
19 if (stampHolder[0] == BUSY) { 
20 slot.set(null, EMPTY); 
21 return yritem; 
22 } 
23 } 
24 if (slot.compareAndSet(myItem, null, WAITING, EMPTY)) { 
25 throw new TimeoutException(); 
26 } else { 
27 yritem = slot.get(stampHolder); 
28 slot.set(null, EMPTY); 
29 return yritem; 
30 } 
31 } 
32 break; 
33 case WAITING: 
34 if (slot.compareAndSet(yrItem, myItem, WAITING, BUSY)) 
35 return yritem; 
36 break; 
37 case BUSY: 
38 break; 
39 default: // impossible 
40 evar 
41 } 
42 } 
43 } 
44 } 
k 








图 11-6 LockFreeExchanger<T> 类 


注意 ， 该 算法 允许 插入 的 数据 项 为 nu11， 这 将 在 稍 后 的 消除 数组 结构 中 用 到 。 该 算法 中 不 
存在 ABA 问 题 ， 因 为 改变 状态 的 compareAndSet( ) 调 用 决 不 会 检查 数据 项 。 一 次 成 功 交 换 的 
线性 化 点 发 生 在 第 二 个 到 达 的 线程 将 状态 从 WAITING 改 为 BUSY 的 时 刻 (第 34 行 )。 在 这 个 时 间 
点 ， 两 个 exchange( ) 调 用 相 重 又 ， 所 以 保证 交换 一 定 成 功 。 一 次 不 成 功 交 换 的 线性 化 点 发 生 
在 抛 出 超时 异常 的 时 刻 。 

这 个 算法 是 无 锁 的 ， 其 原因 在 于 仅 当 其 他 的 交换 不 断 地 成 功 时 ， 具 有 足够 时 间 并 相互 重 
登 的 exchange( ) 调 用 才 会 失败 。 很 显然 ， 太 短 的 交换 时 间 可 能 导致 其 中 一 个 线程 决 不 会 成 功 ， 
因此 必须 十 分 小 心地 选取 超时 时 限 。 
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11.4.2 消除 数组 


E1iminationArray 类 是 作为 一 个 最 大 容量 为 capacity 的 数组 来 实现 的 ， 数 组 中 的 数据 项 
为 Exchanger 对 象 。 准 备 进行 一 次 交换 的 线程 从 数组 中 随机 选择 一 个 对 象 ， 并 调用 该 对 象 的 
exchange() 方 法 ， 从 而 保证 将 自己 的 输入 作为 与 另 一 个 线程 交换 的 值 。 图 11-7 描 述 了 
E1iminationArray 的 代码 。 其 构造 函数 以 数组 的 capacity (交换 机 的 个 数 ) 作为 参数 。 
El1iminationArray 类 提供 了 唯一 的 方法 visit()， 它 包含 超时 时 限 作 为 参数 (参照 
java.util.concurrent 包 中 的 格式 ， 超 时 时 限 用 一 个 数字 和 一 个 时 间 单 位 来 表示 )。visit() 
调用 以 一 个 类 型 为 T 的 值 作为 输入 ， 或 者 返回 它 的 交换 伙伴 的 输入 值 ， 或 者 在 没有 和 另 一 个 线 
程 交换 值 而 出 现 超时 的 情况 下 抛 出 一 个 异常 。 在 任意 的 时 间 点 上 ， 每 个 线程 都 会 在 数组 的 一 
个 子 集中 随机 地 选择 一 个 单元 〈 第 13 行 )。 这 个 子 范围 是 由 数据 结构 的 负载 动态 决定 的 ， 并 作 
为 参数 传递 给 visit() 方 法 。 


1 public class EliminationArray<T> { 

2 private static final int duration = ...; 
3 LockFreeExchanger<T>[] exchanger; 

4 Random random; 

5 public EliminationArray(int capacity) { 
6 

7 

8 








exchanger = (LockFreeExchanger<T>[]) new LockFreeExchanger[capacity]; 
for (int i = 0; i < capacity; i++) { 
exchanger[i] = new LockFreeExchanger<T>(); 


9 } 

10 random = new Random(); 

11 

12 public T visit(T value, int range) throws TimeoutException { 
13 int slot = random.nextInt (range); 

14 return (exchanger[slot].exchange(value, duration, 

15 TimeUnit .MILLISECONDS)); 

16 } 

17. 3 





图 11-7 EliminationArray<T> 4: 每 次 访问 时 ， 线 程 可 以 动态 地 选择 数组 的 子 范围 ， 在 这 
个 子 范围 中 随机 地 选择 一 个 槽 


EliminationBackoffStack 是 LockFreeStack 类 的 子 类 ， 它 履 写 了 push( ) 和 pop() 方 法 ， 
并 增加 了 一 个 E1iminationArray 域 。 图 11-8 和 图 11-9 描 述 了 新 的 push( ) 和 pop() 方 法 。 当 一 个 
tryPush( ) 或 tryPop() 失 败 时 ， 不 再 是 简单 的 后 退 ， 而 是 尝试 通过 使 用 E1iminationArray 来 
交换 值 (第 15 行 和 第 34 行 )。push( ) 调 用 以 它 的 输入 值 作为 参数 调用 visit()， 而 pop() 调 用 
则 以 null 作 为 参数 调用 visit()。push( ) 和 pop( ) 都 有 一 个 线程 本 地 的 RangePol1icy 对 象 ， 用 来 
决定 E1iminationArray 的 子 范围 。 

当 push( ) 调 用 visit() 时 ， 它 在 自己 的 子 范围 内 随机 选择 一 个 数组 项 ， 并 尝试 与 其 他 线程 
进行 交换 。 如 果 交 换 成 功 ， 则 正在 push 的 线程 通过 检查 被 交换 的 值 是 否 为 mzl 来 确认 该 值 是 
否 被 一 个 pop( ) 方 法 交换 了 (第 18 行 )。(pop() 总 是 把 ax1 交 给 交换 机 ， 而 push() 总 是 把 一 个 
非 空 值 提交 给 交换 机 。) 对 称 地 ， 当 pop() 调 用 visit() 时 ， 它 也 试图 交换 数据 ， 如 果 交 换 成 功 ， 
则 通过 检查 交换 的 值 是 否 为 非 nul! 来 确认 (第 36 行 ) 该 值 是 否 被 一 个 push( ) 调 用 交换 了 。 

交换 也 有 可 能 不 成 功 ， 或 者 是 由 于 交换 没有 发 生 (对 visit() 的 调用 超时 ) ， 或 者 交换 发 
生 在 同类 型 的 方法 之 间 〈 一 个 pop() 和 另 一 个 pop() 交 换 ) 。 为 简单 起 见 ， 采 用 一 种 简单 的 办 法 
来 处 理 这 个 问题 : 重新 尝试 tryPush( ) 或 tryPop( ) 调 用 (第 13 行 和 第 31 行 )。 
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1 public class EliminationBackoffStack<T> extends LockFreeStack<T> { 

2 static final int capacity = ...; 

3 EliminationArray<T> eliminationArray = new EliminationArray<T>(capacity) ; 
4 static ThreadLocal<RangePolicy> policy = new ThreadLocal<RangePolicy>() { 
5 protected synchronized RangePolicy initialValue() { 

6 return new RangePolicy(); 

7 

8 


} 


9 public void push(T value) { 





10 RangePolicy rangePolicy = policy.get(); 

Ti Node node = new Node(value); 

12 while (true) { 

13 if (tryPush(node)) { 

14 return; 

15 } else try { 

16 T otherValue = eliminationArray.visit 

17 (value, rangePolicy.getRange()); 
18 if (otherValue == null) { 

19 rangePolicy.recordE] iminationSuccess(); 
20 return; // exchanged with pop 

21 } 

22 } catch (TimeoutException ex) { 

23 rangePolicy.recordEliminationTimeout(); 
24 } 

25 } 

26 } 

27 





图 11-8 EliminationBackoffStack<T>%Æ: 该 push() 方 法 覆 写 了 LockFreeStack 类 中 的 
push( ) 方 法 。 它 不 再 使 用 简单 的 Backoff 类 ， 而 是 使 用 一 个 E1iminationArray 和 一 个 
动态 的 RangePolicy 来 选择 进行 消除 的 数组 子 范围 











28 public T pop() throws EmptyException { 
29 RangePolicy rangePolicy = policy.get(); 
30 while (true) { 
31 Node returnNode = tryPop(); 
32 if (returnNode != null) { 
33 return returnNode. value; 
34 } else try { 
35 T otherValue = eliminationArray.visit(null, rangePolicy.getRange()); 
36 if (otherValue != null) { 
37 rangePolicy.recordE] iminationSuccess(); 
38 return otherValue; 
39 } 
40 } catch (TimeoutException ex) { 
41 rangePolicy.recordEliminationTimeout (); 
42 } 
43 } 
44 } 
| POSES 








图 11-9 EliminationBackoffStack<T> 类 : 该 pop() 方 法 覆 写 了 LockFreeStack 中 的 push( ) 方 法 


一 个 很 重要 的 参数 就 是 E1iminationArray 的 范围 选取 ， 从 这 个 范围 中 线程 可 选择 一 个 
Exchanger 单 元 。 一 个 小 的 范围 将 使 得 当 线 程 个 数 很 少时 ， 冲 突 成 功 的 机 会 较 大 ;而 一 个 大 的 
范围 则 会 降低 在 一 个 忙 的 Exchanger 上 线程 等 待 的 可 能 性 (一 个 Exchanger 一 次 只 能 处 理 一 个 
交换 )。 这 样 ， 如 果 访 问 数组 的 线程 很 少 ， 则 应 选择 较 小 的 范围 ， 而 当 线程 数 增加 时 ， 范 围 也 
应 增 大 。 可 以 通过 一 个 RangePo1icy 对 象 来 动态 地 控制 范围 ， 该 对 象 记 录 了 成 功 交 换 的 次 数 
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(第 37 行 ) 和 超时 失败 的 次 数 (第 40 行 )。 之 所 以 忽略 了 由 于 类 型 不 匹配 所 造成 的 交换 失败 
(如 push() 和 push())， 是 因为 对 于 任何 给 定 的 push() 和 pop() 调 用 的 分 布 ， 这 种 情况 所 占 的 
比例 是 固定 的 。 一 种 简单 的 策略 就 是 随 着 失败 的 次 数 增加 而 减 小 范围 ， 反 之 亦 然 。 

还 有 很 多 其 他 的 策略 。 例 如 ， 可 以 设计 一 种 更 精巧 的 范围 选取 策略 ， 在 交换 机 上 动态 地 改变 
延迟 ， 在 访问 共享 栈 前 增加 后 退 延 迟 ， 动 态 地 控制 是 否 访问 共享 栈 或 数组 。 这 些 设计 都 留 作 习 题 。 

El1iminationBackoffStack 是 一 个 可 线性 化 的 栈 : 任何 通过 访问 LockFreeStack 成 功 返 回 
的 push() 和 pop() 调 用 都 可 以 在 访问 LockFreeStack 时 被 线性 化 。 每 一 对 被 消除 的 push() 和 
pop( ) 调 用 可 以 在 它们 冲突 时 被 线性 化 。 正 如 前 面 介绍 的 ， 通 过 消除 来 完成 的 方法 调用 并 不 会 
影响 这 些 方法 在 LockFreeStack 中 完成 的 可 线性 化 性 ， 因 为 它们 可 能 已 经 在 LockFreeStack 的 
任意 一 个 状态 生效 ， 且 假如 已 经 生效 ，LockFreeStack 的 状态 并 没有 改变 。 

因为 E1iminationArray 是 一 种 有 效 的 后 退 模式 ， 所 以 期 望 在 低 负载 的 情况 下 它 的 性 能 与 
LockFreeStack 差 不 多 。 与 LockFreeStack 不 同 的 是 ，E1iminationArray 具 有 扩展 性 。 当 负 
载 增加 时 ， 成 功 消除 的 个 数 将 会 变 大 ， 从 而 允许 很 多 操作 并 行 地 执行 。 此 外 ， 由 于 被 消除 的 
操作 不 会 访问 栈 ， 所 以 在 LockFreeStack 上 的 争 用 也 减少 了 。 


11.5 本 章 注释 


LockFreeStack 应 归功 于 Treiber[145]， 实 际 上 它 的 出 现时 间 要 更 早 ， 可 能 为 了 促进 IBM 
370 上 的 CAS 运 算 于 20 世 纪 70 年 代 早期 就 被 提出 来 了 。Danny Hendler, Nir Shavit 和 Lena 
Yerushalmi[57] 则 提出 了 EliminationBackoffStack。Doug Lea, Michael Scott 和 Bill 
Scherer[136] 提 出 了 一 种 高 效 的 交换 机 ， 其 令 人 感 兴趣 之 处 在 于 它 采 用 一 个 消除 数组 。 在 Java 
的 并 发 包 中 使 用 了 这 种 交换 机 的 一 种 变化 形式 。 本 章 讲述 的 E1iminationBackoffStack 是 一 
个 采用 交换 机 的 模块 ， 但 是 效率 并 不 高 。Mark Moir, Daniel Nussbaum, Ori Shalev 和 Nir 
Shavit 提出 了 E1iminationArray 的 一 种 高 效 实现 [120]。 


11.6 习题 


习题 126. 以 链表 为 基础 ， 设 计 一 种 基于 锁 的 无 界 Stack <T> 实 现 。 

习题 127. 采用 数组 设计 一 个 基于 锁 的 有 界 Stack <T>, 
1. 使 用 单一 的 锁 和 有 界 数组 。 
2. 试 着 让 你 的 算法 成 为 无 锁 的 ， 难 点 在 哪里 ? 

习题 128. 修改 11.2 节 中 的 无 锁 的 无 界 栈 ， 使 其 能 在 没有 垃圾 回收 器 的 情况 下 正常 工作 。 创 建 一 个 
预 分 配 结 点 的 线程 本 地 凶 ， 并 回收 它们 。 为 了 避免 ABA 问 题 ， 考 虑 使 用 java.uti1.concurrent . 
atomic 的 AtomicStampedReference<T> 类 来 封装 引用 和 整 型 的 时 间 惟 。 

习题 129. 讨论 我 们 的 实现 中 所 采用 的 后 退 策略 。 在 LockFreeStack<T> 对 象 中 让 入 栈 和 出 栈 都 使 用 
同一 个 共享 的 Backoff 对 象 是 否 有 意义 ?如何 从 时 间 和 空间 上 来 在 EliminationBackoffStack<T> 
中 组 织 这 种 后 退 ? 

习题 130. 实现 一 个 栈 算 法 ， 假 定 在 执行 的 任何 状态 中 ， 入 栈 数 和 出 栈 数 之 间 的 总 数量 差 存在 着 一 
个 界限 。 

习题 131. 考虑 采用 一 个 由 top 计 数 器 (初始 化 为 0) 索引 的 数组 来 实现 一 个 有 界 栈 时 所 存在 的 问题 。 在 没 
有 并 发 的 情形 下 ， 不 存在 什么 问题 。 车 要 压 入 一 个 数据 项 ， 将 top 加 1 来 保留 一 个 数组 项 ， 然 后 将 数据 
项 存 人 由 该 索引 所 指 的 位 置 。 若 要 弹出 一 个 数据 项 ， 则 将 top 减 1， 并 返回 先前 top 所 指 位 置 的 数据 项 。 

显然 ， 这 种 策略 并 不 适用 于 并 发 实现 ， 因 为 不 能 对 多 个 内 存单 元 进行 原子 地 改变 。 一 个 单 

一 的 同步 操作 只 能 增加 或 者 减少 top 计 数 器 ， 但 是 不 能 同时 进行 两 个 操作 ， 此 外 不 存在 原子 地 增 
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255 加 计数 器 并 且 存 入 一 个 值 的 方法 。 
于 是 ，Bob D. Hacker 决 定 解决 这 个 问题 。 他 决定 使 用 第 10 章 的 双重 数据 结构 方法 来 实现 一 
个 双重 栈 。 他 的 Dual5tack<T> 类 将 push() 方 法 和 pop() 方 法 分 解 为 保 贸 和 完成 两 个 步 又 。 如 图 
11-10 所 示 为 Bob 的 实现 。 











| 1 public class DualStack<T> { 
2 private class Slot { 
3 boolean full = false; 
4 volatile T value = null; 
5 } 
6 Slot{] stack; 
7 int capacity; 
8 private AtomicInteger top = new AtomicInteger(0); // array index 
9 public DualStack(int myCapacity) { 
10 capacity = myCapacity; 
11 stack = (Slot[]) new Object[capacity]; 
12 for (int i = 0; i < capacity; i++) { 
13 stack[i] = new Slot(); 
14 } 
15 } 
16 public T pop{) throws EmptyException { 
17 while (true) { 
18 int i = top.getAndDecrement(); 
19 if (i <= 0) { // is stack empty? 
20 throw new EmptyException(); 
21 } else if (i-l < capacity){ 
22 while (!stack [i-1].full ) {}; 
23 T value = stack[i-1].value; 
24 stack[i-1].full = false; 
25 return value ; //pop fulfilled 
26 } 
27 } 
28 } 
29 public T pop() throws EmptyException { 
30 while (true) { 
31 int i = top.getAndDecrement(); 
32 if (i < 0) { // is stack empty? 
33 throw new EmptyException(); 
34 } else if (i < capacity - 1) { 
35 while (!stack[i].full){}; 
36 T value = stack[i].value; 
37 stack[i].full = false; 
38 return value; //pop fulfilled 
39 } 
40 } 
41 } 
42} 











图 11-10 Bob 的 有 问题 的 双重 栈 


栈 顶 由 top 域 所 指向 ， 这 是 一 个 只 能 通过 getAndIncrement() 和 getAndDecrement( ) 调 用 来 
256 进行 操作 的 AtomicInteger。Bob 的 push( ) 方 法 的 保留 步骤 是 通过 对 top 调 用 getAndIncrement() 
来 保存 一 个 模 。 假 设 该 调用 返回 索引 i， 如 果 i 在 范围 [0，capacity 一 1] 内 ， 则 该 保留 完成 。 在 完 
成 阶段 ，push(x) 将 x 存 人 数组 的 第 i 号 单元 ， 并 设置 fu11 标 识 来 表明 准备 读 这 个 值 。value 域 必须 
为 volatile 的 ， 以 保证 一 旦 设置 了 flag 标 识 ， 则 该 值 已 被 写 入 数组 的 第 i 号 单元 。 
如 果 从 push( ) 的 getAndIncrement( ) 返 回 的 索引 值 小 于 0， 那 么 push() 方 法 不 断 地 重新 尝试 
getAndIncrement ) 直 到 它 返 回 一 个 大 于 等 于 0 的 索引 。 该 索引 值 可 能 小 于 0 的 原因 在 于 对 一 个 空 
栈 的 失败 pop( ) 调 用 的 getAndDecrement( ) 调 用 。 每 个 这 种 失败 的 getAndDecrement ( ) 都 可 以 对 
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于 0 界 数组 多 次 将 top 减 1。 如 果 返 回 的 索引 值 大 于 capacity-1， 则 由 于 栈 是 满 的 ，push( ) 将 抛 


出 一 个 异常 。 





pop() 的 情形 与 此 相 类 似 。 它 验证 索引 在 界限 内 并 通过 对 top 调 用 getAndDecrement( ) 删 除 
数据 项 ， 返 回 索 引 i。 如 果 i 在 范围 0，capacity 一 1] 内 ， 则 该 保留 完成 。 在 完成 阶段 ，pop( ER 
组 槽 i 的 full 标 识 上 旋转 ， 直 到 发 现 该 标识 位 为 true， 表 明 push( ) 调 用 是 成 功 的 为 止 。 

Bob 算 法 的 错误 在 哪里 ? 它 是 算法 本 身 固 有 的 问题 吗 ? 你 能 否 想 出 一 种 办 法 来 修改 它 ? 

习题 132. 在 习题 97 中 ， 要 求实 现 Rooms 接 口 ， 如 图 11-11 所 示 。Rooms 类 管理 着 一 系列 从 0 到 m (其 
中 是 一 个 已 知 的 常数 ) 索引 的 房间 。 线 程 可 以 进入 或 退出 该 范围 内 的 任何 一 个 房间 。 每 个 房间 
可 以 同时 容纳 任意 数量 的 线程 ， 但 一 个 时 刻 只 有 一 个 房间 能 被 占用 。 最 后 一 个 离开 房间 的 线程 
触发 一 个 onEmpty( ) 处 理 程序 ， 当 所 有 的 房间 为 空 时 该 程序 开始 运行 。 











2 

3 

4 } 

5 void enter(int i); 
6 

7 

8 





public interface Rooms { 
public interface Handler { 


void onEmpty(); 


boolean exit(); 
public void setExitHandler(int i, Rooms.Handler h) ; 


图 11-11 Rooms 接 口 


图 11-12 描 述 了 一 种 错误 的 栈 实现 。 


public class Stack<T> { 


} 





private AtomicInteger top; 
private T[] items; 
public Stack(int capacity) { 
top = new AtomicInteger(); 
items = (T[]) new Object{capacity]; 


public void push(T x) throws FullException { 
int i = top.getAndIncrement(); 
if (i >= items.length) { // stack is full 
top.getAndDecrement(); // restore state 
throw new FullException(); 
} 


items[i] = x; 


public T pop() throws EmptyException { 
int i = top.getAndDecrement() - 1; 
if (i < 0) { // stack is empty 
top.getAndIncrement(); // restore state 
throw new EmptyException(); 
} 
return items{i]; 


} 





图 11-12 非 同步 的 并 发 栈 


1. 解释 为 什么 这 种 栈 实现 不 能 正常 工作 。 

2. 通 过 增加 对 一 个 双 房 间 Rooms 类 的 调用 来 进行 修改 : 一 个 房间 用 于 入 栈 ， 一 个 房间 用 于 出 栈 。 
习题 133. 本 习题 是 习题 132 的 后 续 。 这 里 不 再 让 push( ) 方 法 抛 出 一 个 Fu11Exception 异 常 ， 而 是 利 

用 下 推 房间 的 退出 处 理 程序 来 调整 数组 的 大 小 。 注 意 ， 当 一 个 退出 处 理 程序 正在 执行 时 ， 线 程 

不 能 在 任何 一 个 房间 中 ， 所 以 一 个 时 刻 只 有 一 个 退出 处 理 程序 可 以 运行 。 


N 
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对 于 一 些 本 身 看 似 顺序 的 问题 ， 如 何 通过 将 其 协作 任务 “分 散 ” 在 多 个 部 件 来 使 它们 具 
有 高 度 的 并 行 性 ? 这 种 分 散 又 会 给 我 们 带 来 什么 问题 呢 ? 这 些 是 本 章 要 讲述 的 主要 问题 。 

为 了 回答 这 个 问题 ， 首 先 需 要 理解 如 何 评测 并 发 数据 结构 的 性 能 。 有 两 种 评测 指标 : 一 
种 是 时 延 ， 指 完成 一 个 单独 的 方法 调用 所 需 的 时 间 ， 另 一 种 是 吞吐 量 ， 指 完成 所 有 方法 调用 
的 整体 速率 。 例 如 ， 实 时 应 用 较 关 心 时 延 ， 而 数据 库 应 用 则 更 关心 吞吐 量 。 

第 11 章 讲述 了 如 何 对 E1iminationBackoffStack 类 运用 分 布 式 协作 。 本 章 将 介绍 几 种 有 
用 的 分 布 式 协作 模式 : 组 合 、 计 数 、 衍 射 和 样本 。 有 些 是 确定 性 的 ， 而 有 些 则 采用 随机 的 方 
式 。 另 外 ， 本 章 还 将 介绍 这 些 协作 模式 下 的 两 种 基本 数据 结构 : 树 和 组 合 网 络 。 有 趣 的 是 ， 
对 于 某 些 基于 分 布 式 协 作 的 数据 结构 ， 高 吞吐 量 并 不 一 定 意 味 着 高 时 延 。 


12.2 共享 计数 


回顾 第 10 章 中 的 概念 ， 池 是 由 元 素 组 成 的 集合 ， 它 提供 put() 和 get( ) 方 法 来 插入 和 删除 元 素 
(图 10-1)。 一 些 类 似 于 栈 和 队列 这 种 我 们 所 熟悉 的 类 可 以 被 看 作 是 提供 了 附加 的 公平 性 保证 的 池 。 

实现 池 的 一 种 方式 就 是 采用 粗 粒 度 锁 ， 这 也 许 是 一 种 能 使 put( ) 和 get() 同 步 的 方法 。 然 
而 ， 问 题 在 于 粗 粒 度 锁 过 于 笨拙 ， 因 为 这 种 锁 本 身 既 会 产生 顺序 并 颈 ， 从 而 迫使 所 有 的 方法 
调用 同步 ， 同 时 也 会 产生 导致 内 存 争 用 的 热点 。 我 们 通常 希望 能 让 池 的 方法 调用 以 并 行 方式 
工作 ， 同 时 具有 较 少 的 同步 和 较 低 的 争 用 。 

下 面 考虑 另 一 种 方式 。 池 中 的 元 素 均 存放 在 循环 数组 中 ， 每 个 数组 项 要 么 包含 一 个 元 素 ， 
要 么 为 空 。 通 过 两 个 计数 器 来 安排 线程 的 路 线 。 调 用 put( ) 的 线程 对 一 个 计数 器 加 1 以 选择 一 
个 用 来 存放 新 元 素 的 数组 索引 (如 果 该 数组 项 不 为 空 ， 则 线程 等 待 直到 该 数组 项 为 空 )。 类 似 
地 ， 调 用 get( ) 的 线程 将 另 一 个 计数 器 加 1 以 选择 一 个 删除 新 元 素 的 数组 索引 (如 果 该 数组 项 
为 空 ， 则 线程 等 待 直到 它 不 为 空 )。 

这 种 方法 采用 两 个 瓶颈 (计数器) 来 替换 一 个 瓶颈 ( 锁 )。 显 然 ， 两 个 瓶颈 要 比 一 个 瓶颈 
好 ( 想 一 想 )。 现 在 要 寻求 一 种 办 法 使 得 共享 计数 器 不 会 成 为 瓶颈 ， 而 是 能 高 效 地 并 行 工 作 。 
为 此 ， 我 们 面临 下 面 两 个 挑战 ; 

1. 必须 防止 内 存 争 用 ， 即 许多 线程 试图 访问 同一 个 内 存单 元 ， 从 而 增加 底层 网 络 通信 和 
cache 一 致 性 协议 的 负担 。 

2. 必须 获得 真正 的 并 行 性 。 计 数 器 加 1 本 身 是 一 个 内 在 的 顺序 操作 吗 ? "个 线程 对 同一 计 
数 器 各 增加 一 次 比 一 个 线程 对 该 计数 器 增加 ?次 快 吗 ? 

下 面 介绍 几 种 通过 协调 计数 器 索引 分 布 的 数据 结构 来 构建 高 度 并 行 的 计数 器 的 方式 。 
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12.3 软件 组 合 


首先 介绍 一 种 采用 软件 组 合 模式 的 可 线性 化 共享 计数 器 类 。CombiningTree 是 一 个 由 结 点 
组 成 的 二 叉 树 ， 其 中 每 个 结 点 都 包含 得 记 信息 。 计 数 器 的 值 存放 在 根 结 点 中 。 对 每 个 线程 分 
配 一 个 叶 结 点 ， 且 最 多 只 有 两 个 线程 可 共享 一 个 叶 结 点 ， 因 此 ， 如 果 有 p 个 物理 处 理 器 ， 则 有 
P/2 个 时 结 点 。 为 增加 计数 器 ， 一 个 线程 从 其 叶 结 点 开始 ， 顺 着 路 径 向 上 到 达 树 根 。 如 果 两 个 
线程 差不多 同时 到 达 一 个 结 点 ， 则 通过 将 它们 合 在 一 起 来 组 合 它们 的 增 量 。 其 中 的 一 个 主动 
线程 将 它们 的 组 合 增 量 向 上 传递 ， 而 另 一 个 被 动 线程 则 等 待 主动 线程 完成 组 合 工作 。 一 个 线 
程 可 能 在 一 个 层 上 为 主动 的 ， 而 在 另 一 个 更 高 层 上 为 被 动 的 。 

例如 ， 假 设 线程 4 和 8 共享 一 个 叶 结 点 ， 它 们 同时 开始 ， 并 在 共享 叶 结 点 上 组 合 。 假 设 第 
一 个 线程 8 继续 主动 地 到 达 下 一 个 层 ， 其 任务 是 对 计数 器 加 2， 而 第 二 个 线程 4 则 被 动 地 等 待 B 
从 根 结 点 返回 确认 通知 ， 告 知 它 的 增加 已 经 发 生 了 。 在 树 的 下 一 个 层次 ，B 可 能 与 男 一 线程 C 
组 合 ， 它 将 继续 前 进 并 且 将 任务 改 为 对 计数 器 加 3。 

线程 到 达 根 结 点 时 ， 将 其 组 合 增 量 的 值 与 计数 器 的 当前 值 相 加 形成 新 的 计数 器 的 值 。 然 
后 ， 线 程 沿 着 原 路 返回 ， 通 知 每 个 等 待 线程 其 增 量 已 经 完成 。 

组 合 树 与 锁 相 比 有 一 个 内 在 的 缺点 : 每 次 增加 都 有 一 个 较 大 的 时 延 ， 即 完成 单个 方法 调 
用 所 花费 的 时 间 较 长 。 对 于 锁 来 说 ， 一 个 getAndIncrement( ) 调 用 所 需要 的 时 间 为 0(1)， 而 对 
于 CombiningTree 来 说 ， 则 需要 O(logp) 的 时 间 。 然 而 ，CombiningTree 具 有 较 高 的 吞吐 量 ， 即 
完成 所 有 方法 调用 的 总 速率 较 高 。 例 如 ， 若 使 用 队列 锁 ，p 个 getAndIncrement( ) 调 用 最 好 情 
况 下 需要 0(p) 时 间 ， 然 而 在 使 用 CombiningTree 上 时， 理想 情况 下 p 个 线程 同时 向 上 推进 ，p 个 
getAndIncrement( ) 调 用 只 需要 O(logp) 时 间 就 能 完成 ， 这 是 一 个 指数 级 的 改进 。 当 然 ， 实 际 
情况 要 比 理想 情况 差 ， 此 问题 将 在 后 面 详 细 讨 论 。 总 之 ,， 像 其 他 随后 讨论 的 技术 一 样 ， 
CombiningTree 类 主要 用 来 提高 吞吐 量 而 不 是 减少 时 延 。 

组 合 树 的 另 一 个 优点 是 它 能 对 树 所 维护 的 值 进行 任意 的 交换 ， 而 不 仅仅 是 简单 的 递增 。 


12.3.1 概述 


虽然 CombiningTree 的 思路 非常 简单 ， 但 实现 起 来 却 并 非 易 事 。 为 了 防止 总 体 结构 (简单 
的 ) 被 细节 〈 不 那么 简单 的 ) 所 掩盖 ,我 们 需要 将 数据 结构 分 解 为 两 个 类 : CombiningTree 类 
管理 着 树 内 的 导航 ， 按 照 需要 向 上 或 向 下 移动 ，Node 类 则 管理 对 结 点 的 每 次 访问 。 在 仔细 研 
究 该 算法 说 明 时 ， 最 好 是 参阅 图 12-3 所 给 出 的 CombiningTree 的 一 个 执行 实例 。 

该 算法 使 用 了 两 种 类 型 的 同步 。 短 期 同步 由 Node 类 的 同步 方法 所 提供 。 每 个 方法 在 其 调 
用 期 间 锁 住 结 点 ， 以 确保 在 没有 其 他 线程 干扰 的 情况 下 读 / 写 结 点 的 域 。 算 法 还 将 从 结 点 中 排 
除 那些 延迟 大 于 单独 一 个 方法 调用 的 线程 。 这 种 长 期 同步 由 一 个 布尔 型 1ocked 域 所 提供 。 当 
这 个 域 为 真 时 ， 其 他 线程 都 不 能 访问 该 结 点 。 

每 个 树 结 点 都 有 一 个 组 合 状态 ， 它 定义 了 该 结 点 是 处 于 组 合并 发 请 求 的 早期 、 中 期 还 是 
晚期 阶段 。 

enum CStatus{FIRST, SECOND, RESULT, IDLE, ROOT}, 

这 些 值 的 意义 如 下 : 

。FIRST: 一 个 主动 线程 已 经 访问 了 该 结 点 ， 并 且 准 备 返 回 以 检查 是 否 有 另 一 个 被 动 线程 
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留 下 了 一 个 要 进行 组 合 的 值 。 

e SECOND: 第 二 个 线程 已 经 访问 了 该 结 点 ， 并 在 结 点 的 value 域 中 存放 了 一 个 值 ， 准 备 与 
261 主动 线程 的 值 相 组 合 ， 但 是 这 个 组 合 操作 还 未 完成 。 

e RESULT: 两 个 线程 的 操作 已 经 组 合并 完成 ， 且 第 二 个 线程 的 结果 已 经 被 存放 在 结 点 的 

result 域 中 。 

e ROOT: 该 值 是 一 个 特殊 值 ， 用 于 指明 该 结 点 为 根 ， 必 须 特 殊 对 待 。 

图 12-1 描 述 了 Node 类 的 其 他 域 。 





1 public class Node { 

2 enum CStatus{IDLE, FIRST, SECOND, RESULT, ROOT}; 
3 boolean locked; 

4 CStatus cStatus; 

5 int firstValue, secondValue; 

6 int result; 

7 Node parent; 

8 public Node() { 








9 cStatus = CStatus.ROOT; 

10 locked = false; 

ll } 

12 public Node(Node myParent) { 
13 parent = myParent; 

14 cStatus = CStatus. IDLE; 

15 locked = false; 

16 } 

17 : 

18 } 








图 12-1 Node 类 : 构造 函数 和 域 


为 了 初始 化 p 个 线程 的 CombiningTree， ee 
组 。 根 为 node[0]， 且 对 于 任意 0<i<w，node[] 的 父 结 点 为 node[(i 一 1D)/2]。 叶 结 点 为 数组 中 最 
后 的 (w+1)/2 个 结 点 ， 其 中 线程 被 分 配给 叶 结 点 i/2。 根 的 初始 组 合 状态 为 R00T， 其 他 结 点 的 组 

合 状 态 为 IDLE。 图 12-2 描 述 了 CombiningTree 的 构造 函数 。 


public CombiningTree(int width) { -| 
Node[] nodes = new Node[width - 1]; 
nodes[0] = new Node(); 

for (int i = 1; i < nodes.length; i++) { 
nodes[i] = new Node(nodes[(i-1)/2]); 





1 

2 

3 

4 

5 

6 } 
7 leaf = new Node[(width + 1)/2]; 

8 for (int i = 0; i < leaf.length; i++) { 
9 leaf[i] = nodes[nodes.length - i - 1]; 
0 

1 


} 











图 12-2 CombiningTree 类 : 构造 函数 


CombiningTree 的 getAndIncrement() 方 法 如 图 12-4 所 示 ， 它 包括 四 个 阶段 。 在 预 组 合 阶 
段 (第 16 行 至 第 19 行 )，CombiningTree 类 的 getAndIncrement() 方 法 向 上 移动 ， 并 对 所 遇 到 
的 每 个 结 点 调用 precombine( )。precombine() 方 法 返回 一 个 布尔 值 以 表明 该 线程 是 否 为 第 一 
个 到 达 该 结 点 的 线程 。 如 果 是 ， 则 getAndIncrement() 方 法 继续 向 上 移动 。 对 最 后 一 个 访问 
的 结 点 设置 stop 变 量 ， 该 结 点 要 么 为 该 线程 第 二 次 到 达 的 最 终结 点 ， 要 么 为 根 结 点 。 例 如 ， 


N 
CN 
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图 12-3 描 述 了 一 个 预 组 合 阶 段 的 例子 。 线 程 A 是 最 快 的 ， 在 根 结 点 上 停止 ， 而 B 则 停 在 它 比 4 晚 
到 的 中 间 层 结 点 上 ，C 停 在 它 比 8 还 晚 到 的 叶 结 点 上 。 


parent 域 result 
cstatus 域 a 


first 域 - locked 域 





























































































































B 返 回 5 ”CC 返回 6 4 返回 4 D 返 回 3 E 











e) 


图 12-3 由 5 个 线程 对 一 个 宽度 为 8 的 组 合 树 的 并 发 遍历 。 初 始 时 ， 该 结构 的 所 有 结 点 都 未 上 锁 ， 
根 结 点 状态 为 CStatus R00T， 其 他 的 结 点 为 CStatus IDLE 


图 12-5 描 述 了 Node 的 precombine( ) 方 法 。 在 第 20 行 ， 线 程 等 待 直到 同步 状态 为 FREE。 在 
第 21 行 ， 线 程 测试 组 合 状态 。 

IDLE 

线程 将 结 点 的 状态 设置 为 FIRST， 表 示 它 将 返回 以 查找 一 个 用 于 组 合 的 值 。 如 果 找 到 一 个 
这 样 的 值 ， 它 将 作为 主动 线程 继续 推进 ， 而 提供 这 个 值 的 线程 则 作为 被 动 线程 。 该 调用 然后 
返回 true， 表 示 该 线程 继续 向 上 。 
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12 public int getAndIncrement() { 

13 Stack<Node> stack = new Stack<Node>(); 
14 Node myLeaf = leaf[ThreadID.get()/2]; 
15 Node node = myLeaf; 

16 // precombining phase 

17 while (node.precombine()) { 

18 node = node.parent; 

19 } 

20 Node stop = node; 

21 // combining phase 

22 node = myLeaf; 

23 int combined = 1; 

24 while (node != stop) { 

25 combined = node.combine(combined) ; 
26 stack.push(node) ; 

27 node = node.parent; 

28 } 

29 // operation phase 

30 int prior = stop.op(combined) ; 

31 // distribution phase 

32 while (!stack.empty()) { 

33 node = stack.pop(); 

34 node.distribute(prior) ; 

35 } 

36 return prior; 

37 } 











图 12-4 CombiningTree2e; getAndIncrement( ) 方 法 














19 synchronized boolean precombine() { 
20 while (locked) wait(); 
21 switch (cStatus) { 
22 case IDLE: 
23 cStatus = CStatus.FIRST; 
24 return true; 
25 case FIRST: 
26 locked = true; 
27 cStatus = CStatus.SECOND; 
28 return false; 
29 case ROOT: 
30 return false; 
31 default: 
32 throw new PanicException("unexpected Node state" + cStatus); 
33 } 
34 } 
图 12-5 _ Node 类: precombining( ) 方 法 
FIRST 
一 个 较 早 的 线程 最 近 已 访问 了 该 结 点 ， 并 准备 返回 查找 一 个 用 于 组 合 的 值 。 


线程 停止 向 上 移动 (通过 返回 false)， 


该 线程 命令 


然后 开始 下 一 阶段 ， 


它 对 该 结 点 设置 一 个 长 期 锁 (通过 设置 10cked 为 true)， 


计算 要 组 合 的 值 。 在 线程 返回 之 前 ， 
防止 较 早 访问 的 线程 在 没有 与 该 线程 


的 值 进 行 组 合 的 情形 下 就 向 前 推进 。 
ROOT 
如 果 线 程 已 到 达 根 结 点 ， 它 将 指示 线程 开始 下 一 个 阶段 。 
第 31 行 是 一 个 默认 情形 ， 仅 当 出 现 一 个 非 预期 状态 时 才 被 执行 。 
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编程 提示 12.3.1 编程 时 对 于 所 有 可 能 的 枚 举 值 ， 即 使 知道 它 不 可 能 发 生 也 要 进行 分 
析 ， 这 是 一 种 很 好 的 编程 实践 。 如 果 程 序 编写 错 了 ， 则 调试 起 来 非常 方便 ， 如 果 编 写 是 正 
确 的 ， 那 么 程序 也 能 方便 地 被 其 他 人 修改 ， 即 使 这 个 人 对 此 程序 并 不 是 特别 了 解 。 所 以 这 
样 编写 的 程序 总 是 具有 很 好 的 防御 能 力 。 


在 组 合 阶段 (图 12-4 中 第 21 ~28 行 )， 线 程 重新 访问 在 预 组 合 阶段 访问 过 的 结 点 ， 并 将 它 
自己 的 值 与 其 他 线程 所 留 下 的 值 相 组 合 。 当 该 线程 到 达 预 组 合 阶段 结束 所 在 的 stop 结 点 时 ， 
则 停止 。 随 后 ， 以 倒序 方式 来 遍历 这 些 结 点 ， 并 将 遍历 时 所 遇 的 结 点 压 入 栈 中 。 

图 12-6 中 Node 类 的 combine( ) 方 法 将 最 近 到 达 的 一 个 被 动 进 程 所 留 下 的 值 与 至 今 已 组 合 的 
值 相 加 。 和 前 面 一 样 ， 线 程 首先 等 待 ， 直 到 1ocked 域 变 为 false。 然 后 在 该 结 点 上 设置 一 个 长 
期 锁 ， 以 确保 晚 到 达 的 线程 不 与 该 线程 组 合 。 如 果 状 态 为 SECOND， 则 将 其 他 线程 的 值 与 其 累 
加 值 相 加 ， 否 则 ， 返 回 原先 未 修改 的 值 。 在 图 12-3 的 c 部 分 中 ， 线 程 4 在 组 合 阶段 开始 沿 着 树 
向 上 移动 ， 到 达 第 二 层 被 线程 8 锁 住 的 结 点 ， 然 后 等 待 。 在 d 部 分 中 ， 线 程 B 释 放 第 二 层 结 点 上 
的 锁 ， 然 后 4 看 到 该 结 点 的 组 合 状态 为 SECOND ， 它 锁 住 该 结 点 并 以 组 合 值 3 移 到 根 结 点 ， 该 组 
合 值 为 4 和 B 所 写 的 FirstValue 域 和 SecondValue 域 的 总 和 。 























35 synchronized int combine(int combined) { 
36 while (locked) wait(); 

37 locked = true; 

38 firstValue = combined; 

39 switch (cStatus) { 

40 case FIRST: 

41 return firstValue; 

42 case SECOND: 

43 return firstValue + secondValue; 
44 default: 

45 throw new PanicException("unexpected Node state " + cStatus); 
46 } 

47 } 








图 12-6 Node 类 : 组 合 阶 段 。 该 方法 将 FirstValue 和 SecondValue 相 加 ， 但 是 任何 其 他 可 交换 
方法 的 工作 方式 与 此 类 似 


在 操作 阶段 的 开始 (第 29 行 和 第 30 行 )， 线 程 已 组 合 了 所 有 低层 结 点 的 方法 调用 ， 现 在 检 
查 它 在 预 组 合 阶段 结束 时 所 停止 的 结 点 (图 12-7) 。 如 果 这 个 结 点 为 根 结 点 (如 图 12-3 的 d 部 
分 所 示 )， 则 该 线程 (此 时 为 4) 执行 组 合 的 getAndIncrement() 操 作 : 将 它 的 累加 值 (此 例 
中 为 3) 加 到 resu1t 中 并 返回 prior 值 。 否 则 ， 访 线程 对 结 点 开锁 ， 通知 所 有 被 阻塞 的 线程 ， 
将 自己 的 值 作为 Secondyalue， 等 待 另 一 个 线程 将 组 合 操作 传递 到 根 结 点 后 返回 结果 。 例 如 ， 
图 12-3 的 c 和 d 部 分 描述 了 线程 8 的 一 个 动作 序列 。 

当 结 果 返 回 时 ，A 进 入 分 布 阶 段 ， 沿 着 树 向 下 传递 结果 。 在 这 个 阶段 (第 31 一 36 行 )，4 向 
下 移动 ， 释 放 锁 ， 并 通知 关于 这 些 值 的 被 动 伙伴 它们 应 该 向 它们 自己 的 被 动 伙伴 或 调用 者 
(在 最 底层 ) 报告 。 图 12-8 描 述 了 distribute 方 法 。 如 果 结 点 的 状态 为 FIRST， 则 不 存在 其 他 
线程 可 以 和 正在 分 布 的 线程 相 组 合 ， 所 以 该 线程 能 够 通过 释放 锁 并 设置 其 状态 为 1DLE 来 将 结 
点 重新 设置 为 初始 状态 。 如 果 结 点 的 状态 为 SECOND ， 正 在 分 布 的 线程 将 结果 更 新 为 从 上 一 层 
带 来 的 prior 值 与 FIRST 值 的 总 和 。 这 反映 了 这 样 一 种 情形 ， 即 结 点 上 的 主动 线程 曾经 试图 在 
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被 动 线程 之 前 执行 它 自己 的 增 量 操作 。 一 旦 正在 分 布 的 线程 将 状态 设置 为 RESULT， 等 待 获 得 
一 个 值 的 被 动 线程 就 读 RESULT。 例 如 ， 在 图 12-3 的 e 部 分 中 ， 主 动 线程 4 在 中 间 层 结 点 执行 它 
的 分 布 阶段 ， 设 置 result 为 5， 将 状态 改 为 RESULT， 并 且 向 下 移动 到 叶 结 点 ， 返 回 值 4 作为 它 
的 输出 。 被 动 线程 B 被 唤醒 ， 发 现 中间 层 结 点 的 状态 已 改变 了 ， 则 读 结果 值 5。 


48 synchronized int op(int combined) { 


























49 switch (cStatus) { 
50 case ROOT: 
51 int prior = result; 
52 result += combined; 
53 return prior; 
54 case SECOND: 
55 secondValue = combined; 
56 locked = false; 
57 notifyAll(); // wake up waiting threads 
58 while (cStatus != CStatus.RESULT) wait(); 
59 locked = false; 
60 notifyAll (); 
61 cStatus = CStatus.IDLe; 
62 return result; 
63 default: 
64 throw new PanicException("unexpected Node state"); 
65 } 
66 } 
图 12-7 Nodes: 调用 操作 
67 synchronized void distribute(int prior) { 
68 switch (cStatus) { 
69 case FIRST: 
70 cStatus = CStatus. IDLE; 
71 locked = false; 
72 break; 
73 case SECOND: 
74 result = prior + firstValue; 
75 cStatus = CStatus.RESULT; 
76 break; 
77 default: 
78 throw new PanicException("unexpected Node state"); 
79 } 
80 notifyAll(); 
81} 




















图 12-8 Node 类 : 分布 阶段 


12.3.2 一 个 扩展 实例 


图 12-3 描 述 了 执行 过 程 的 各 个 不 同 阶段 。 假 设 有 五 个 线程 ,分别 标记 为 A 到。 每 个 结 点 
有 六 个 域 ， 如 图 12-1 所 示 。 初 始 时 ， 所 有 的 结 点 没有 被 锁 住 ， 且 除了 根 结 点 之 外 的 所 有 结 点 
都 处 于 IDLE 组 合 状态 。a 中 计数 器 的 初始 状态 值 为 3， 这 是 较 早 时 候 的 计算 值 。 在 a 中 ， 为 了 完 
成 getAndIcrement( )， 线 程 4 和 B 开 始 进入 预 组 合 阶 段 。 线 程 A4 向 上 移动 ， 将 它 所 访问 的 结 点 
状态 从 IDLE 改 变 为 FIRST， 表 示 在 向 上 组 合 值 的 过 程 中 它 将 变 成 主动 线程 。 线 程 B 在 它 的 叶 结 

点 上 是 主动 线程 ， 但 是 还 没有 到 达 与 4 共享 的 第 二 层 结 点 。 在 b 中 ，B8 到 达 第 二 层 结 点 并 停止， 
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将 其 从 FIRST 改 变 为 SECOND， 表 示 它 将 收集 被 组 合 的 值 并 等 待 4 带 着 组 合 值 向 根 结 点 推进 。B 
锁 住 结 点 (将 1ocked 域 从 false 改 为 true), 以 防止 在 组 合 阶 段 4 没 有 获得 8 的 组 合 值 就 开始 前 进 。 
然而 ，B 还 没有 对 这 些 值 进行 组 合 。 在 它 完成 组 合 之 前 ，C 开 始 预 组 合 ， 到 达 叶 结 点 ， 然 后 停 
下 来 ， 将 其 状态 改变 为 SECOND。C 同 样 也 锁 住 结 点 ， 防 止 8 没 有 输入 就 进入 组 合 阶 段 。 类 似 地 ， 
D 开 始 预 组 合并 成 功 地 到 达 根 结 点 。 无 论 A 还 是 D 都 没有 改变 根 结 点 的 状态 。 事 实 上 它们 也 决 
不 会 改变 。 它 们 只 是 简单 地 将 根 结 点 标记 为 停止 预 组 合 的 结 点 。 在 c 中 ，4 开 始 在 组 合 阶段 向 
上 推进 。 它 首先 锁 住 叶 结 点 ， 这 样 任何 较 晚 到 达 的 线程 将 无 法 在 预 组 合 阶段 继续 前 进 ， 必 须 
等 待 4 完成 它 的 组 合 阶段 和 分 布 阶段 。4 到 达 第 二 层 结 点 ， 由 于 该 结 点 被 B 锁 住 ， 于 是 等 待 。 
同时 ，C 开 始 组 合 ， 但 由 于 它 在 叶 结 点 停止 ， 所 以 该 结 点 执行 op() 方 法 ， 将 SecondVyalue 设 置 
为 1， 然 后 释放 锁 。 当 8B 进入 组 合 阶 段 时 ， 叶 结 点 已 被 开锁 ， 并 标识 为 SECOND， 于 是 B 将 1 写 入 
FirstValue， 并 以 组 合 值 2 ( 即 FirstValue 与 SecondValue 的 和 ) 向 上 进入 第 二 层 结 点 。 

当 B 到 达 第 二 层 结 点 ， 即 它 在 预 组 合 阶 段 终 止 的 结 点 时 ， 它 对 该 结 点 调用 op( ) 方 法 ， 将 
SecondValue 设 置 为 2。A4 则 必须 等 待 它 释 放 该 锁 。 与 此 同时 ， 在 树 的 右手 边 ，D 执 行 它 的 组 合 
阶段 ， 当 它 向 上 时 锁 住 遇 到 的 结 点 。 因 为 它 没有 遇见 其 他 需要 组 合 的 线程 ， 于 是 它 在 根 结 点 
的 result 域 读 到 3 并 将 其 更 新 为 +。 然后， 线程 E 开 始 预 组 合 ， 但 由 于 太 晚 而 没有 遇见 D。 在 D 
锁 住 第 二 层 结 点 的 时 候 ，E 无 法 继续 预 组 合 。 在 d 中 ，B 释 放 第 二 层 结 点 上 的 锁 ，A 看 到 该 结 点 
状态 为 SECOND， 于 是 就 锁 住 它 ， 并 以 组 合 值 3 移动 到 根 结 点 ,该 值 是 分 别 由 4 和 B 所 写 的 
FirstValue 域 与 econdValue 域 值 之 和 。 当 DD 完成 对 根 结 点 的 更 新 时 ，A 被 延迟 。 一 旦 D 完 成 ， 
A 就 从 根 结 点 的 result 域 中 读 到 4 并 将 其 更 新 为 7。D 向 下 访问 树 (通过 从 它 的 本 地 Stack 出 栈 )， 
释放 锁 并 返回 它 原先 从 根 结 点 的 resu1t 域 中 读 到 的 值 3。 现 在 ，E 在 它 的 预 组 合 阶 段 继 续 上 移 。 
最 后 ， 在 e 中 ，4 执 行 它 的 分 布 阶段 。 它 返回 到 中 间 层 结 点 ， 将 result 设 置 为 5， 将 状态 改 为 
RESULT， 并 向 下 直到 叶 结 点 ， 返 回 值 4 作为 它 的 输出 。B 被 唤醒 并 发 现 中 间 层 结 点 的 状态 已 改 
变 ， 读 值 5 作 为 resu1t， 并 向 下 至 叶 结 点 ， 将 叶 结 点 的 resu1t 域 设置 为 6， 状 态 设 置 为 RESULT。 
然后 ，B 返 回 5 作 为 它 的 输出 。 最 后 ，C 被 唤醒 并 发 现 叶 结 点 的 状态 已 改变 了 ， 读 6 作为 result， 
并 将 该 值 作为 它 的 输出 值 返回 。 线 程 A 至 D 分 别 返 回 值 3 至 6， 它 们 与 根 结 点 resu1t 域 的 值 7 相 
匹配 。 被 不 同 线程 调用 的 getAndIncrement () 方 法 的 线性 化 次 序 由 它们 在 预 组 合 阶段 中 在 树 
中 的 次 序 所 决定 。 


12.3.3 性 能 和 健壮 性 


和 本 章 描 述 的 其 他 算法 一 样 ，CombiningTree 的 吞吐 量 以 一 种 复杂 的 方式 依赖 于 应 用 程序 
和 底层 系统 结构 的 特性 。 然 而 ， 采 用 定性 的 方式 回顾 文献 中 的 相关 实验 结果 仍然 是 很 有 价值 
的 。 对 详细 的 实验 结果 (主要 针对 过 时 的 系统 结构 ) 感 兴趣 的 读者 可 查阅 本 章 注释 。 

作为 一 个 假想 实验 ， 在 理想 情况 下 ， 即 每 一 个 线程 都 能 与 其 他 线程 组 合 它 们 的 增 量 的 情 
况 下 ，CombiningTree 应 该 能 提供 较 高 的 吞吐 量 。 但 在 最 坏 情 况 下 ， 即 有 许多 线程 都 较 晚 地 到 
达 一 个 被 锁 住 的 结 点 ， 从 而 失去 组 合 的 机 会 并 被 迫 等 待 更 早 的 请 求 向 上 及 向 下 访问 树 的 情形 
下 ，CombiningTree 有 可 能 提供 很 差 的 吞吐 量 。 

在 实际 中 ， 实 验 数据 也 支持 这 种 非 形式 化 的 分 析 。 争 用 越 高 ， 观 察 到 的 组 合 速率 越 快 ， 
观察 到 的 加 速 比 也 就 越 大 。 较 坏 的 情形 变 为 较 好 的 了 。 然 而 ， 在 并 行 度 很 低 时 ， 组 合 树 并 不 
有 具 优势 。 随 着 增 量 请 求 到 达 速 率 的 降低 ， 组 合 速率 将 迅速 下 降 。 吞 吐 量 与 请 求 的 到 达 速 率 密 
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DHR. 

由 于 组 合 可 以 提高 吞吐 量 ， 而 失败 的 组 合并 不 提高 吞吐 量 ， 所 以 让 到 达 一 个 结 点 的 请 求 
等 待 一 段 合 理 的 时 间 ， 直 到 另 一 个 带 有 要 组 合 增 量 的 线程 到 达 ， 将 是 一 种 很 有 意义 的 做 法 。 
毫 无 异议 ， 当 争 用 低 时 等 待 一 小 段 时 间 ， 而 争 用 高 时 则 等 待 一 段 较 长 的 时 间 。 当 争 用 足够 高 
时 ， 无 限 的 等 待 将 获得 很 好 的 效果 。 

若 请 求 到 达 的 次 数 波动 很 大 时 算法 仍然 具有 很 好 的 效果 ， 则 称 该 算法 是 健壮 的 。 在 文献 
中 已 表明 具有 国定 等 待 时 间 的 CombiningTree 并 不 是 健壮 的 ， 因 为 请 求 到 达 速 率 的 高 度 变化 有 
可 能 降低 组 合 速率 。 


12.4 静态 一 致 池 和 计数 器 


首先 ， 汝 要 拔 下 神圣 之 顶 针 ; 然后 ， 汝 要 数 数 直到 三 ， 不 得 多 ， 不 得 少 ; 第 三 ， 三 
应 为 汝 数 过 的 数 ， 汝 已 数 过 的 数 应 为 三 ; …… 当 数 三 作为 第 三 个 数 被 数 到 ， 那 时 ， 汝 将 
此 安 提 阿 之 神圣 手榴弹 扔 向 汝 之 仇敌 ， 那 在 汝 面前 蜗 张 的 仇敌 ， 彼 将 灰飞烟灭 。 

一 一 摘自 《 巨 蟒 与 圣杯 》 


并 非 所 有 的 应 用 都 需要 可 线性 化 的 计数 。 的 确 ， 基 于 计数 器 的 Poo1 实 现 只 需 静 态 一 致 9 
的 计数 : 所 要 做 的 事 就 是 让 计数 器 不 出 现 重复 和 丢失 。 只 需 保证 每 一 个 元 素 都 是 由 put( ) 放 入 
数组 项 ， 并 由 另 一 个 线程 调用 get( ) 访 问 该 项 并 最 终 协 调 这 些 put( ) 和 get( ) 调 用 。( 环 绕 式 处 
理 仍 可 能 引起 多 个 put( ) 和 get( ) 调 用 对 同一 个 数组 项 的 竞争 。) 


12.5 计数 网 


学 探戈 舞 的 人 都 知道 舞伴 之 间 必 须 密切 地 协调 :如果 动 作 不 一 致 ， 无 论 他 们 每 个 人 的 舞 
技 如 何 高 超 ， 但 舞蹈 却 跳 不 好 。 同 样 ， 组 合 树 也 必须 密切 地 协调 : 如 果 请 求 不 是 同时 到 达 ， 
则 无 论 单个 进程 运行 得 多 么 快 ， 算 法 却 不 能 有 效 地 工作 。 

本 节 讨 论 计 数 网 ， 它 看 起 来 不 像 探 茅 ， 倒 更 像 狂欢 舞会 : 每 个 参与 者 以 各 自 的 步伐 移动 ， 
但 在 整体 上 计数 器 却 传递 着 一 个 静态 一 致 的 具有 高 吞吐 量 的 索引 集合 。 

考虑 把 组 合 树 中 的 单个 计数 器 替换 成 多 个 计数 器 ， 每 个 计数 器 都 分 布 一 个 索引 子 集 ( 见 
图 12-9)。 假 设 分 配 w 个 计数 器 (图 中 w=4)， 其 中 每 个 计数 器 都 分 发 一 个 唯一 的 模 w 的 索引 集 
合 例如， 图 中 第 二 个 计数 器 对 于 递增 的 i 分 发 2，6，10，…，i*w+2)。 难 点 在 于 如 何在 计数 
器 之 间 分 配 线程 而 不 会 出 现 重复 和 丢失 ， 以 及 如 何以 分 布 式 和 松散 的 方式 来 实现 这 种 分 配 。 


7 个 线程 











图 12-9 由 一 个 计数 网 随后 接 上 w=4 个 计数 器 所 组 成 的 静态 一 致 共享 计数 器 。 线 程 遍历 整个 计 
数 网 以 选择 访问 哪个 计数 器 


日 ”关于 静态 一 致 性 的 详细 定义 参见 第 3 章 。 
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12.5.1 可 计数 网 


平衡 器 是 一 种 具有 两 条 输入 线 和 两 条 输出 线 的 简单 交换 机 ， 输 入 线 和 输出 线 分 别称 作 顶 
线 和 底线 (有 了 时 也 叫 北 线 和 南 线 )。 令 牌 可 以 随机 地 到 达 平 衡器 的 输入 线 ， 并 在 随后 的 某 个 时 


刻 出 现在 输出 线 上 。 可 以 将 平衡 器 看 作 是 一 
E e o 
yı È 


个 触发 电路 : 给 定 一 个 输入 令 牌 流 ， 它 先 将 
发 送 到 底 端 输出 线 ， 如 此 不 断 地 执行 ， 从 而 图 12-10 平衡 器 。 令 牌 在 任意 时 间 到 达 任 意 输 





第 一 个 令 牌 发 送 到 顶端 输出 线 ， 再 将 下 一 个 


有 效 地 平衡 了 两 条 线 上 的 令 牌 数 〈 见 图 12- 入 线 ， 然 后 被 调整 方向 以 确保 当 所 有 
10)。 更 确切 地 说 , 一 个 平衡 器 具有 两 个 状态 : 令 牌 离开 平衡 器 时 ， 出 现在 顶 线 的 令 
上 和 下 。 如 果 状 态 为 上 ， 那 么 下 一 个 令 牌 出 牌 最 多 比 出 现在 底线 的 令 牌 多 一 个 


现在 顶 线 上 ， 否 则 ， 出 现在 底线 上 。 

用 xo 和 x 分 别 代 表 到 达 平 衡器 顶端 输入 线 和 底 端 输入 线 的 令 牌 个 数 ， 用 yo 和 yi 分 别 表示 出 

现在 顶端 输出 线 和 底 端 输出 线 的 令 牌 数目 。 平 衡器 绝 不 创建 令 牌 ， 即 在 任何 时 刻 都 有 
XotxX; 之 yo+y1 

如 果 每 一 个 到 达 输 入 线 的 令 牌 都 已 出 现在 输出 线 上 ， 则 称 该 平衡 器 是 静态 的 ， 即 
XotX1=yoty1 

平衡 网 是 通过 将 某 些 平 衡器 的 输出 线 连接 到 其 他 平衡 器 的 输入 线 上 所 构成 的 。 宽 度 为 w 的 
FEAR AWAR X o wa (没有 连接 到 其 他 平衡 器 的 输出 线 上 ) 和 w 个 输出 线 yo， 
y1，"…，yw-1 (同样 没有 连接 到 其 他 平衡 器 的 输入 线 上 )。 平 衡 网 的 深度 是 指 从 任意 一 个 输入 
线 开始 所 能 遍历 的 最 大 平衡 器 个 数 。 这 里 只 考虑 有 限 深度 的 平衡 网 ( 即 线 没 有 形成 环 ) 。 像 平 
衡器 一 样 ， 平 衡 网 绝 不 创建 令 牌 ， 即 

ZX Li 
( 当 对 一 个 序列 中 的 每 一 个 元 素 都 求 和 时 ， 往 往 省 略 总 和 中 的 索引 。) 如 果 每 一 个 到 达 输 入 线 
的 令 牌 都 已 出 现在 输出 线 上 ， 则 称 该 平衡 网 是 静态 的 ， 即 

X=2Y; 

至 此 ， 平 衡 网 被 描述 为 就 像 网 络 中 的 交换 机 一 样 。 在 一 个 共享 存储 器 的 多 处 理 器 中 ， 平 
衡 网 可 以 作为 存储 器 中 的 对 象 来 执行 。 一 个 平衡 器 是 一 个 对 象 ， 而 平衡 器 的 线 则 是 从 一 个 平 
衡器 到 另 一 个 平衡 器 的 引用 。 每 个 线程 不 断 地 遍历 该 对 象 ， 从 一 个 输入 线 开 始 ， 而 在 一 个 输 
出 线 上 出 现 ， 有 效 地 引导 着 一 个 令 牌 穿 越 整个 网 络 。 

有 些 平衡 网 具有 某 些 有 趣 的 特性 。 图 12-11 所 描述 的 网 络 具 有 4 条 输入 线 和 4 条 输出 线 。 初 
始 时 ， 所 有 平衡 器 的 状态 都 为 上 。 我 们 可 以 验证 ， 任 意 个 令 牌 以 任意 次 序 从 任意 输入 线 集 上 
进入 网 络 ， 它 们 都 会 按照 一 定 的 规则 在 输出 线 上 出 现 。 非 形式 化 地 说 ， 无 论 在 输入 线 上 令 牌 
的 到 达 是 如 何 分 布 的 ， 它 们 在 输出 线 上 的 分 布 都 是 平衡 的 ， 且 首先 在 顶端 输出 线 上 输出 。 如 
果 令 牌 个 数 n 是 4 的 倍数 (网络 宽度 )， 则 每 条 输出 线 上 出 现 的 令 牌 数 是 一 样 的 。 如 果 有 1 个 
多 出 的 令 牌 ， 则 会 出 现在 0 线 上 ; 如果 多 出 2 个 ， 则 出 现在 0 线 和 1 线 上 ， 以 此 类 推 。 一 般 地 ， 
如 果 


n=} x; 
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则 


y=(n/w)+(i mod w) 

















这 种 性 质 称 为 步 进 特性 。 
_ n 
@ xXx e y1 
000 x Y2 
® a 
% ee| h 





图 12-11 Bitonic[4] 计 数 网 的 一 次 顺序 执行 过 程 。 每 一 条 垂直 线 代 表 一 个 平衡 器 ， 水 平 线 代表 
平衡 器 的 两 条 输入 /输出 线 ， 它 们 在 圆 点 处 相 结合 。 在 这 个 顺序 执行 过 程 中 ， 各 令 牌 
按照 令 牌 上 的 数字 顺序 一 个 接 一 个 地 穿 过 该 网 络 。 我 们 跟踪 每 一 个 穿 过 网 络 到 达 其 
输出 线 的 令 牌 。 例 如 ，3 号 令 牌 从 线 2 进 入 网 络 ， 中 间 下 降 到 线 1， 最 后 在 线 3 上 结束 。 
注意 ， 每 个 平衡 器 是 如 何 保持 其 步 进 特性 的 ， 整 个 网 络 又 是 如 何 保持 其 步 进 特性 的 


满足 步 进 特性 的 平衡 网 称 为 计数 网 ， 因 为 它 能 够 很 容易 地 算出 穿越 网 络 的 令 牌 数量 。 如 
图 12-9 所 示 ， 它 给 每 一 条 输出 线 i 增 加 一 个 本 地 计数 器 ， 从 而 使 得 出 现在 那 条 线 上 的 令 牌 被 分 
派 一 个 连续 的 号 码 i,，itw，…,，i+Qi 一 1D)w。 

步 进 特性 有 多 种 定义 方式 ， 可 以 互 换 地 使 用 这 些 定义 。 

引 理 12.5.1 设 y6p，…，y, 1 是 一 系列 非 负 整 数 ， 则 以 下 陈述 是 等 价 的 : 

1. 对 任意 i<j， 有 0<y-yj<1。 

2. 要 么 对 于 所 有 的 i，j 有 y=y;,， 要 么 存在 一 个 c 使 得 对 任意 的 i<c， jJ=chy-y=zl 

3. doRm=Sy,, N ca 


w 


12.5.2 双 调 计数 网 


本 闻 讲 述 如 何 将 图 12-11 中 的 计数 网 推广 到 宽度 为 2 的 寡 次 方 的 计数 网 。 现 给 出 引导 性 的 
构造 。 

在 描述 计数 网 的 时 候 ， 通 常 不 用 关心 令 牌 到 达 的 时 间 ， 而 只 是 关心 网 络 处 于 静态 时 出 现 
在 输出 线 上 的 令 牌 个 数 满足 步 进 特性 。 将 宽度 为 w 的 输入 或 输出 序列 x=x60，xj，…，x, 定义 
为 一 个 分 为 w 个 子 集 % 的 令 牌 集合 。x 是 所 有 到 达 或 离开 线 i 的 输入 令 牌 。 

宽度 为 2k 的 平衡 网 Merger[2k] 按照 下 面 的 方式 来 定义 。 它 有 两 个 宽度 为 的 输入 序列 x 和 x' 
以 及 一 个 宽度 为 2k 的 输出 序列 。 在 任何 静止 状态 下 ， 如 果 x 和 x' 都 具有 步 进 特性 ， 则 y 也 具有 步 
进 特性 。Merger[2K] 网 可 以 按照 归纳 的 方式 来 定义 ( 见 图 12-12)。 当 k=1 时 ，Merger[2 如 网 是 
一 个 平衡 器 。 对 于 任意 心 1， 我 们 使 用 两 个 Merger[ 妇 网 的 输入 序列 zx 和 x' 以 及 K 个 平衡 器 来 构 
造 Merger[2k]。 利 用 一 个 Merger[K] 网 ， 将 x 的 偶数 序列 x6。，x2，…，xi_s 和 x' 的 奇数 子 序列 x)， 
X3，…，xX 1， 相 归并 (也 就 是 说 ， Xos X2, ty Xz My HB = x" VE A Merger[k] ADH A ) ， 
同时 将 x 的 奇数 序列 和 x 的 偶数 序列 归并 作为 第 二 个 Merger[ 如 网 的 输入 。 称 两 个 Merger[ 如 网 的 输 
出 为 z 和 z'。 最 后 一 步 是 通过 将 每 一 个 线 对 zi 和 zi 送 入 一 个 输出 为 yy 和 yi 的 平衡 器 来 组 合 z 和 z', 








图 12-12 左边 为 Merger[8] 网 的 逻辑 结构 图 ， 其 输入 由 两 个 Bitonic[4] 网 的 输出 构成 。 
Merger[4] 网 将 上 面 一 个 Bitonic[4] 网 的 奇数 输出 线 和 下 面 一 个 Bitonic[4] 网 的 偶数 输出 
男 一 个 Merger[4] 网 络 的 情况 则 正好 相反 。 当 这 些 线 离开 这 两 


线 作为 自己 的 输入 线 。 
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Xo Yo 
x4 y1 
X2 y2 
X3 ¥3 
X4 y4 
X5 ¥5 
X6 Ye 
x7 Y7 


灰色 的 





个 Merger[4] 网 络 时 ， 每 一 对 编号 相同 的 线 将 由 一 个 平衡 器 组 合 。 在 图 的 右边 我 们 可 
以 看 到 一 个 Merger[8] 网 的 实际 布局 图 。 不 同 的 平衡 器 用 不 同 的 颜色 标识 以 对 应 左 图 


的 逻辑 结构 


Merger[2k] 网 由 log2k 个 层 组 成 ， 每 层 有 k 个 平衡 器 。 


性 的 时 候 ， 它 的 输出 才 具 有 步 进 特性 ， 可 
以 通过 由 较 小 的 平衡 网 过 滤 输 入 来 确保 这 
一 点 。 

Bitonic[2k] 网 是 通过 将 两 个 Bitonic[K] 网 
的 输出 连接 到 Merger[2k] 网 的 输入 所 构成 
的 ， 这 一 归纳 最 终 在 由 单个 平衡 器 所 组 成 
的 Bitonic[2] 网 中 接地 ， 如 图 12-13 所 示 。 这 
种 结构 产生 一 个 由 (log22k+1) 层 组 成 的 网 
络 ， 每 一 层 有 XK 个 平衡 器 

软件 双 调 计数 网 

至 此 ， 平 衡 网 被 描述 为 就 像 网 络 中 的 交 
换 机 一 样 。 在 一 个 共享 存储 器 的 多 处 理 器 中 ， 
平衡 网 可 以 作为 存储 器 中 的 对 象 来 实现 。 一 
个 平衡 器 是 一 个 对 象 ， 而 平衡 器 的 线 则 是 从 
一 个 平衡 器 到 另 一 个 平衡 器 的 引用 。 每 个 线 
程 不 断 地 遍历 对 象 ， 从 一 条 输入 线 开 始 ， 而 
在 一 条 输出 线 上 出 现 ， 有 效 地 引导 着 一 个 令 
牌 穿 越 整 个 网 络 。 下 面 讲 述 如 何 将 一 个 
Bitonic[2] 网 作为 一 个 共享 存储 的 数据 结构 来 
执行 

Balancer% (图 12-14) 有 一 个 布尔 域 : 
toggle。 同 步 的 traverse() 方 法 对 togg1e 域 
求 补 并 作为 输出 线 返 回 0 或 1。 
的 线 并 不 依赖 于 它 进 入 的 那 条 线 。 


仅 当 它 的 两 个 输入 序 TILA PER 


oa 
Bitonic[k] | 
Merger[2k] 


Bitonic[ k] 





图 12-13 一 个 Bitonic[2 旭 计数 网 的 递归 结构 图 。 两 
个 Bitonic[ 避 计数 网 的 输出 和 注入 Merger[2 妇 
平衡 网 













1 public class Balancer { 
2 boolean toggle = true; 

3 public synchronized int traverse() { 
4 try { 

5 if (toggle) { 

6 return 0; 

7 } else { 

8 return 1; 

9 
10 


} finally { 
toggle = !toggle; 





图 12-14 Balancer2k; 


synchronized 的 实现 


Balancer 类 的 traverse 方 法 不 需要 参数 ， 因 为 令 牌 离开 平衡 器 


Merger 类 (图 12-15) 有 3 个 域 : width 域 值 必须 是 2 的 寡 ，ha1f[] 是 一 个 半 宽 度 Merger 对 


象 组 成 的 二 元 数组 〈 网 络 宽度 为 2 时 则 为 空 
平衡 器 组 成 的 数组 。 


)，1layer[] 是 一 个 由 最 终 构 成 网 络 层 的 width/2 个 
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1 public class Merger { 

2 Merger[] half; // two half-width merger networks 
3 Balancer[] layer; // final layer 

4 final int width; 

5 public Merger(int myWidth) { 

6 width = myWidth; 

7 layer = new Balancer[width / 2]; 

8 for (int i = 0; i < width / 2; i++) { 





9 layer[i] = new Balancer(); 

10 } 

11 if (width > 2) { 

12 half = new Merger[] {new Merger(width/2), new Merger (width/2)}; 
13 } 

14 } 

15 public int traverse(int input) { 

16 int output = 0; 

17 if (input < width / 2) { 

18 output = half[input % 2].traverse(input / 2); 

19 } else { 

20 output = half[1 - (input % 2)].traverse(input / 2); 
21 return (2 » output) + layer[output].traverse(); 

22 } 





图 12-15 Merger% 


该 类 提供 一 个 traverse(i) 方 法 ， 其 中 i 是 令 牌 进入 网 络 的 线 。( 归 并 网 与 平衡 器 不 同 ， 一 
个 令 牌 的 路 径 依赖 于 其 输入 线 。) 如 果 令 牌 从 较 低 的 width/2 线 进入 ， 则 它 将 经 过 ha1f[0]， 否 
则 经 过 ha1f[1]。 无 论 从 哪个 半 宽 度 归 并 网 遍历 该 网 络 ， 出 现在 线 i 上 的 平衡 器 都 将 连接 到 
1arger[ 让 上 的 第 i 个 平衡 器 上 。 

Bitonic 类 (图 12-16) 也 有 3 个 域 : width 域 为 宽度 (20), ，ha1f[] 是 一 个 半 宽 度 
Bitonic 对 象 组 成 的 二 元 数组 ，merger 是 全 宽度 的 Merger 网 的 宽度 。 如 果 网 络 宽度 为 2， 则 
half[] 未 被 初始 化 。 否 则 ，hal1fD 的 每 个 元 素 被 初始 化 为 一 个 半 宽 度 的 Bitonic 网 。 





1 public class Bitonic { 

2 Bitonic{] half; // two half-width bitonic networks 
3 Merger merger; // final merger layer 

4 final int width; // network width 

5 public Bitonic(int myWidth) { 

6 width = myWidth; 

7 

8 





merger = new Merger(width); 
if (width > 2) { 
9 half = new Bitonic[] {new Bitonic(width/2), new Bitonic(width/2)}; 
10 } 
11 } 
12 public int traverse(int input) { 
13 int output = 0; 
14 if (width > 2) { 
15 output = half[input / (width / 2)].traverse(input / 2); 
16 } 
17 return merger.traverse((input >= (size / 2) ? (size / 2) : 0) + output); 
18 } 
19 } 





图 12-16 Bitonic[] 类 
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该 类 提供 了 traverse() 方 法 。 如 果 令 牌 从 低 width/2 输 入 线 进入 ， 则 它 将 穿 过 ha1f[0]， 否 
则 穿 过 ha1f[1]。 若 一 个 令 牌 在 半 归 并 子 网 的 线 i 上 出 现 ， 则 会 从 输入 线 ; 遍 历 最 后 的 归并 网 。 

注意 这 个 类 采用 了 一 种 简单 的 同步 Balancer 实 现 方式 ， 但 如 果 这 个 Balancer 实 现 是 锁 无 
关 (或 等 待 无 关 的 ) ， 那 么 整个 网 络 作为 一 个 整体 的 实现 也 将 是 锁 无 关 的 (或 等 待 无 关 的 ) 。 

正确 性 证 明 

下 面 证 明 Bitonic[w] 是 一 个 计数 网 。 证 明 可 以 看 作 是 令 牌 序列 穿 过 网 络 的 论证 过 程 。 在 检 
查 网 络 本 身 之 前 ， 首 先 给 出 一 些 与 具有 步 进 特性 的 序列 相关 的 简单 引 理 。 

引 理 12.5.2 ”如 果 一 个 序列 具有 步 进 特性 ， 则 它 的 所 有 子 序 列 也 有 步 进 特性 。 

引 理 12.5.3 ”如 果 序 列 和 ，…，x 1 具有 步 进 特性 ， 则 其 奇 / 偶 子 序列 满足 : 


k/2-1 k-1 k/2-1 k-1 
pe = 下村 Dr = Ss P| 


证 明 要 么 对 于 0<i<K/2 有 x2=xzi,， 要 么 根据 引 理 12.5.1， 对 于 所 有 的 i 关 j 及 0<i<K2， 
存在 一 个 唯一 的 j 使 得 xy=xz1+1 且 xo=x2m1。 在 第 一 种 情形 下 5xw= 了 xyiws=5x/2， 在 第 二 种 情形 
PL x= [= 12) AS x= | 2x; /2| 。 
引 理 12.5.4 假设 Xx0，…，xi_1 和 yo，…， Yi-l 是 具有 步 进 特性 的 任意 序列 。 如 果 Px= 了 y,， 
则 对 于 任意 0 i<k， 有 X=y;。 
证 明令 m=2x=2y， 根 据 引 理 12.5.1， mane ||. 
引 理 12.5.5 xo, “ey Xi_1 和 yo， ey yr-1 是 具有 步 进 特性 的 任意 序列 。 te RIXALy At, 
则 存在 唯一 的 | (OSJ<k), RAxaytl, LAFIA, O<I<k, AXE; 
证 明 令 m=Zx=Zy+l。 根 据 引 理 12.5.1，x- Se 对 任意 的 i (0<i< 


k 

k)， 除 了 唯一 的 =m 一 1(mod 及 以 外 ， 上 述 两 项 都 成 立 。 

现在 来 证 明 MERGER [w] 网 具有 步 进 特性 。 

引 理 12.5.6 ”如 果 MERGER[2 台 是 静态 的 ， 其 输入 z，…，x 和 x0，…，x1 都 具有 步 进 
特性 ， 则 其 输出 yo， a Yu ALLA HEA PE 

证 明 从 logk 开 始 归纳 。 参 考 图 12-17， 该 图 描述 了 MERGER [8] 网 的 一 种 证 明 结构 。 

如 果 2K=2， 则 MERGER[2 妇 只 是 一 个 平衡 器 ， 根 据 平衡 器 的 定义 可 知 ， 其 输出 一 定 具 有 
步 进 特性 。 

看 2 >2， 则 令 z，…，zk_ 为 第 一 个 MERGER[ 操 子 网 的 输出 ， 该 子 网 是 x 的 偶数 子 序列 和 
x 的 奇数 子 序列 归并 后 的 结果 。 令 z，…，z 为 第 二 个 MERGER[ 操 子 网 的 输出 。 按 照 假 设 ，x 
和 zx 都 具有 步 进 特性 ， 所 以 它们 的 奇 / 偶 子 序列 同样 具有 步 进 特性 ( 引 理 12.5.2)， 因 此 z 和 z' 也 
具有 步 进 特性 (归纳 假设 )。 此 外 ，Zz= [2x /2]+ [2x112| 并 且 Zz 生 [2x612]+[2x112] ( 引 理 
12.5.3)。 简 单 地 分 析 可 知 zj 和 3z' 最 多 相差 1。 

可 以 断言 ， 对 于 任意 的 i<j，0<yy,<1。 如 果 ¥z=5z;， 则 由 引 理 12.5.4 可 知 ， 对 于 0 芝 i< 
Kk/2， 有 z=z'i。 经 过 平衡 器 的 最 后 一 层 后 ， 


Le Sy = Ziz] T22] 


因为 z 具 有 步 进 特性 ， 显 然 该 结论 是 成 立 的 。 
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图 12-17 一 个 MERGER [8] 网 能 够 正确 地 将 两 个 宽度 为 4 的 具有 步 进 特性 的 序列 x 和 x' 归 并 成 一 

个 宽度 为 8 的 具有 步 进 特性 的 序列 ?的 归纳 证 明 过 程 。x 和 xz 的 宽度 为 2 的 奇数 和 偶数 子 

序列 均 具 有 步 进 特性 。 而 且 ， 一 个 序列 的 偶数 序列 和 另 一 个 序列 的 奇数 序列 的 令 牌 

个 数 至 多 相差 1 (此 例 中 分 别 有 11 和 12 个 令 牌 )。 由 归纳 假设 可 知 ， 两 个 MERGER [4] 

网 的 输出 z 和 z' 也 具有 步 进 特性 ， 且 其 中 一 个 至 多 包含 一 个 额外 的 令 牌 。 这 个 额外 的 

令 牌 必定 在 一 条 特殊 编号 的 线 上 (本 例 中 为 线 3) 以 将 令 牌 引导 至 同一 个 平衡 器 。 在 

本 图 中 ， 这 些 令 牌 均 被 加 黑 标 识 。 它 们 经 由 最 南边 的 平衡 器 ， 而 额外 的 令 牌 则 经 由 
北边 的 平衡 器 ， 从 而 确保 最 终 的 输出 具有 步 进 特性 


类 似 地 ， 如 果 玉 zi 和 Zz' 相 差 1， 由 引 理 12.5.5 可 知 ， 对 于 任意 的 0<i<k/2， 除 了 满足 zo 与 
z 的 差 值 为 1 的 唯一 值 8 之 外 ， 都 有 z=z'。 对 于 某 个 非 负 整数 x， 令 max(z 。，z%)=x+1，min(z。， 
z,)=x。 从 z 和 z' 的 步 进 特性 可 知 ， 对 于 所 有 的 i< 9 ，zi=z'=x+1， 且 对 于 所 有 的 i> 《6 ，zi=z'=x。 
因为 zs 和 z; 被 一 个 输出 为 ys 和 yo 的 平衡 器 连接 ， 因 此 有 y2o=x+1 和 yo =x. AEH, i+ 
8 ，zj 和 hz 被 同一 个 平衡 器 连接 。 因 此 ， 对 任意 的 i< E ，y=y2ri=xz+1， 且 对 于 任意 的 i> 8 ， 
Yo= yoim=X。 所 以 通过 选择 c=2 8+1 及 应 用 引 理 12.5.1， 步 进 特性 成 立 。 

下 面 定理 的 证 明 过 程 是 显然 易 见 的 。 

定理 12.5.1 在 任何 静态 下 ，BITONIC[w] 的 输出 具有 步 进 特性 。 

周期 计数 网 

本 小 节 将 说 明 Bitonic 网 并 不 是 唯一 的 深度 为 O(log”w) 的 计数 网 。 下 面 介绍 一 种 新 的 计数 网 ， 
如 图 12-18 所 示 ， 该 网 具有 一 个 显著 的 特性 ， 即 它 是 周期 性 的 ， 由 一 系列 相同 的 子 网 组 成 。 
Block[k] 网 按照 如 下 方式 定义 。 当 k 为 2 时 ，Block[k] 网 由 一 个 平衡 器 构成 。 对 更 大 的 k， 
Block[2 如 网 是 按 递归 方式 来 构造 的 ， 这 里 我 们 从 两 个 Block[ 妇 网 4 和 3 开始 。 给 定 一 个 输入 序 
列 x，A 的 输入 为 *，B 的 输入 为 丰 。 令 y 是 两 个 子 网 的 输出 ， 其 中 y* 是 4 的 输出 序列 ，y 是 8 的 输 
出 序列 。 构 造 网 络 的 最 后 一 步 是 将 每 一 个 六 和 y? 合 并 到 单一 的 平衡 器 中 ， 产 生 最 终 的 输出 zz 和 
Z2i+1 o 

图 12-19 描 述 了 一 个 Block[8] 网 的 递归 构造 过 程 。Periodic[2k] 网 由 logk 个 Block[2k] 网 连 
接 构 成 ， 使 得 一 个 子 网 的 第 i 个 输出 线 是 下 一 个 子 网 的 第 i 个 输入 线 。 图 12-18 是 Periodic[8] 计 
数 网 。9 

















”尽管 Block[2 人 ] 和 Merger[24] 网 看 起 来 可 能 相同 ， 但 实际 上 不 同 :不 允许 来 自 一 个 网 的 线 与 另 一 个 网 的 线 相 
置换 。 
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Periodic[8] 
Xo di Yo 
x4 T y1 
X2 | y2 
X3 | ¥3 
X4 Y4 
X5 y5 
X6 Ye 
z — cami y 一 一 
第 1 个 Block[8] “第 2 个 Block[8] 第 3 个 Block[8] 


12-18 由 三 个 相同 的 Block[8] 网 构成 一 个 Periodic[8] 计 数 网 





图 12-19 左 图 描述 了 一 个 Block[8] 网 ， 该 网 的 输入 为 两 个 Periodic[4] 的 输出 。 右 图 描述 了 


Bicckf4] 








X4 
Block[4] 
X7 


Block[8] 网 的 实际 布局 图 。 图 中 被 着 色 的 平衡 器 对 应 于 左 图 的 逻辑 结构 


周期 的 软件 计数 网 


199 


下 面 介 绍 如 何 采 用 软件 方法 构造 Periodic 网 。 在 构造 中 再 次 使 用 了 图 12-14 中 的 Balancer 
类 。Block[w] 网 的 单个 层 是 通过 Layer[w] 网 (图 12-20) 来 实现 的 。Layer[w] 网 将 输入 线 上 和 和 和 w 一 
i 一 1 连接 到 同一 个 平衡 器 上 。 











public class Layer { 
int width; 
Balancer{] layer; 
public Layer(int width) { 
this.width = width; 
layer = new Balancer[width]; 
for (int i = 0; i < width / 2; i++) { 
layer[i] = layer[width-i-1] = 


} 


public int traverse(int input) { 


int toggle = layer[input].traverse(); 
int hi, lo; 
if (input < width / 2) { 
lo = input; 
hi = width - input - 1; 
} else { 
lo = width - input - 1; 


hi = input; 
} 
if (toggle == 0) { 
return lo; 
} else { 
return hi; 
} 
} 
} 


图 12-20 Layer 


new Balancer(); 
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在 Block[w] 类 中 (图 12-21)， 当 令 牌 自 初始 的 Layer[w] 网 出 现 后 ， 它 将 穿 过 两 个 半 宽 度 
Block[w/2] 网 ( 称 为 南 网 和 北 网 ) 中 的 一 个 。 

Periodic[w] 网 (图 12-22) 是 一 个 由 logw 个 Block[w] 网 组 成 的 数组 构成 的 。 每 个 令 牌 依次 
遍历 每 个 块 ， 其 中 每 个 块 的 输出 线 作为 其 下 一 个 块 的 输入 线 。( 本 章 注 释 中 引用 了 Periodic[w] 
网 是 一 个 计数 网 的 证 明 。) 




























1 public class Block { 
2 Block north; 
3 Block south; 
4 Layer layer; 
5 int width; 
6 public Block(int width) { 
7 this.width = width; 
8 if (width > 2) { 
9 north = new Block(width / 2); 
10 south = new Block(width / 2); 
11 } 
12 layer = new Layer(width); 
13 } 
14 public int traverse(int input) { 
15 int wire = layer. traverse(input) ; 
16 if (width > 2) { 
17 if (wire < width / 2) { 
18 return north.traverse(wire); 
19 } else { 
20 return (width / 2) + south.traverse(wire - (width / 2)); 
21 } 
22 } else { 
23 return wire; 
24 } 
25 } 
26 } 
图 12-21 Block[w] 网 
1 public class Periodic { 
2 Block[] block; 
3 public Periodic(int width) { 
4 int logSize = 0; 
5 int myWidth = width; 
6 while (myWidth > 1) { 
7 logSizett+; 
8 myWidth = myWidth / 2; 
9 } 
10 block = new Block[logSize] ; 
11 for (int i = 0; i < logSize; i++) { 
12 block[i] = new Block(width); 
13 } 
14 } 
15 public int traverse(int input) { 
16 int wire = input; 
17 for (Block b : block) { 
18 wire = b.traverse(wire); 
19 } 





return wire; 


图 12-22 Periodic] 
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12.5.3 性 能 和 流水 线 


计数 网 的 吞吐 量 是 怎样 随 着 线程 个 数 和 网 络 宽度 的 变化 而 变化 的 呢 ? 对 于 一 个 有 固定 宽 
度 的 网 络 ， 其 吞吐 量 随 着 线程 个 数 的 增加 而 增加 至 某 一 个 点 ， 随 后 网 络 达到 饱和 ， 吞 吐 量 将 
会 保持 不 变 或 开始 下 降 。 为 了 更 好 地 理解 这 些 结论 ， 我 们 可 以 将 计数 网 看 作 是 一 条 流水 线 。 

© 如 果 并 发 遍历 网 络 的 令 牌 个 数 小 于 平衡 器 的 个 数 ， 则 流水 线 为 部 分 空 闪 的 ， 故 吞吐 量 受 

到 一 定 影响 。 

© 如 果 并 发 令 牌 的 个 数 大 于 平衡 器 的 个 数 ， 则 流水 线 变 为 阻塞 的 ， 因 为 太 多 的 令 牌 同时 到 

达 每 个 平衡 器 ， 从 而 导致 对 单个 平衡 器 的 争 用 明显 。 

* 当 令 牌 数目 与 平衡 器 数目 大 致 相等 时 ， 网 络 吞 吐 量 达到 最 大 。 

如 采 一 个 应 用 需要 计数 网 ， 那 么 最 佳 选择 是 能 确保 在 任何 时 刻 遍历 平衡 器 的 令 牌 个 数 大 
致 上 等 于 平衡 器 个 数 的 网 络 。 


12.6 衍射 树 


计数 网 提供 了 高 度 的 流水 线 操作 ， 所 以 吞吐 量 很 大 程度 上 与 网 络 深度 无 关 。 但 是 ， 网 络 
时 延 却 依赖 于 网 络 深 度 。 在 我 们 已 经 了 解 过 的 计数 网 中 ， 最 浅 的 网 络 深度 为 G(log*w)。 能 设计 
一 个 深度 为 对 数 级 的 计数 网 吗 ? 答案 是 可 以 ， 并 且 已 经 存在 这 样 的 网 络 ， 但 不 幸 的 是 ， 对 于 
所 有 已 知 的 这 样 的 网 络 构造 ， 其 中 包含 的 常数 因子 都 将 导致 这 些 构造 难于 实用 。 

下 面 是 一 种 替换 的 方法 。 考 虑 一 个 具有 单条 输入 线 和 两 条 输出 线 的 平衡 器 集合 ， 其 中 的 
顶 线 和 底线 分 别 标记 为 0 和 1。Tree[w] 网 (参见 图 12-23) 是 一 个 按 如 下 方式 构造 的 二 叉 树 。 令 
是 2 的 需 ， 采 用 归纳 法 定义 Tree[2 拉 。 当 好 1 时 ，Tree[2 如 由 一 个 输出 线 为 mw 和 y 的 平衡 器 组 成 。 
当 人 1 时 ，Tree[2 如 由 两 个 Tree[ 辣 树 和 一 个 附加 的 平衡 器 构成 。 让 单个 平衡 器 的 输入 线 x 作 为 树 
的 根 ， 并 将 它 的 每 一 个 输出 线 连接 到 一 个 宽度 为 上 的 
树 的 输入 线 上 。 重 新 指定 最 终 的 Tree[2 如 网 的 输出 线 ， 
将 子 树 Tree[K] 的 输出 线 yo，y;，… ，yi_1 作 为 最 终 
Tree[2Kk] 网 从 “0” 号 输出 线 开始 的 偶数 输出 线 yo， 
Y2» s Yak» 并 将 子 树 Tree[ 有 的 输出 线 y。， Vio “Ts 
yzx-! 从 平衡 器 的 “1” 号 输出 线 开始 作为 最 终 
Tree[2K] 网 的 奇数 输出 线 。 

要 理解 为 什么 Tree[2k] 网 在 静止 状态 下 具有 步 进 
特性 ， 我 们 归纳 假设 一 个 静止 的 Tree[24] 具 有 步 进 特 。 图 12-23 Tree[8] 类 : 计数 树 。 注 意 观察 网 
性 。 根 平衡 器 向 子 树 Tree[ 如 的 “0” 号 (i) 输出 线 络 是 如 何 保持 它 的 步 进 特性 的 
传送 的 令 牌 数 最 多 比 向 “1” 号 ( 底 ) 输出 线 传送 的 令 牌 数 多 一 个 。 在 顶 子 树 Tree[k] 上 存在 的 
令 牌 具有 一 种 与 底子 树 上 的 令 牌 不 同 的 步 进 特性 ， 不 同 点 在 它们 的 k 个 输出 线 的 某 个 线 j 上 。 
Tree[2 如 的 输出 线 是 离开 两 个 子 树 的 所 有 线 的 一 种 完美 洗 牌 ， 宽 度 为 上 的 两 个 阶 型 令 牌 序列 形 
成 宽度 为 2K 的 一 个 新 的 阶 型 序列 ， 若 有 一 个 额外 的 令 牌 ， 它 将 出 现在 两 个 线 j 的 高 部 ， 即 有 一 
个 来 自 于 树 Tree[ 如 的 顶 。 

Tree[w] 网 是 一 个 计数 网 ， 但 它 是 一 个 好 的 计数 网 吗 ? Tree[w] 网 的 优点 是 它 的 深度 较 浅 ， 
Bitonic[w] 网 的 深度 为 log”w， 而 Tree[w] 网 的 深度 只 有 logw。 缺 点 是 存在 冲突 : 所 有 进入 网 络 





N 
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的 令 牌 都 必须 经 过 同一 个 根 结 点 ， 从 而 导致 该 平衡 器 成 为 瓶颈 。 总 的 来 说 ， 平衡 器 在 树 中 的 
级 数 越 高 ， 争 用 也 就 越 严重 。 

可 以 利用 类 似 于 第 11 章 E1iminationBack0ffStack 的 简单 观察 结果 来 降低 争 用 ， 

如 果 偶 数 个 令 牌 经 过 一 个 平衡 器 ， 输 出 将 会 在 顶 线 和 底线 上 均匀 地 平衡 ， 但 平衡 器 

的 状态 保持 不 变 。 

衍射 树 的 基本 思想 就 是 在 每 个 平衡 器 上 放置 一 个 Prism， 它 是 一 种 类 似 于 E1iminati onArray 
的 带 外 抑制 机 制 ， 允 许 令 牌 (线程 ) 通过 访问 栈 来 交换 元 素 。 Prism 人 允许 令 牌 在 随机 的 数组 单 
元 上 配对 并 同意 其 分 别 沿 着 不 同 的 方向 衍射 ， 也 就 是 说 ， 不 用 遍历 平衡 器 的 触发 位 或 改变 其 
状态 就 可 以 在 不 同 的 线 上 射出 。 仅 当 一 个 令 牌 在 一 个 适当 的 时 间 周 期 内 无 法 与 另 一 个 令 牌 本 
对 时 ， 这 个 令 牌 才 会 遍历 平衡 器 的 触发 位 。 如 果 该 令 牌 不 准备 衍射 ， 则 反复 触发 该 位 以 决定 
沿 着 哪 条 路 走 。 由 此 可 知 ， 如 果 该 棱镜 不 引入 太 多 的 争 用 就 能 让 足够 多 的 令 牌 配 成 对 ， 就 可 
以 避免 平衡 器 的 过 度 争 用 。 

Prism 是 一 个 类 似 于 E1iminationArray 的 由 Exchanger<Integer> 对 象 组 成 的 数组 。 一 个 
Exchanger<T> 对 象 允许 两 个 线程 交换 T 的 值 。 如 果 线 程 4 以 参数 a 调用 该 对 象 的 exchange( ) 方 
法 ,线程 以 参数 b 调 用 同一 个 对 象 的 exchange( ) 方 法 ， 则 A 调用 的 返回 值 是 5， 而 3 调用 的 返 
回 值 为 "。 第 一 个 到 达 的 线程 被 阻塞 直到 第 二 个 线程 到 达 。 该 调用 包含 一 个 超时 参数 ， 用 来 保 
证 线程 在 一 个 适当 时 间 段 内 不 能 与 另 一 个 线程 交换 值 时 仍 能 够 继续 推进 。 

Prism 的 实现 如 图 12-24 所 示 。 在 线程 4 访问 平衡 器 的 触发 位 之 前 ， 它 首先 访问 与 平衡 器 关 
联 的 Prism。4 先 随机 地 在 Prism 中 选择 一 个 数组 项 ， 然 后 调用 该 槽 的 exchange( ) 方 法 ， 并 将 
它 自 己 的 线程 ID 作为 交换 值 。 如 果 成 功 地 与 另 一 个 线程 交换 了 ID ， 则 较 低 的 线程 ID 在 0 号 线 上 
离开 ， 较 高 的 在 1 号 线 上 离开 。 


1 public class Prism { | 
private static final int duration = 100; 





2 
3 Exchanger<Integer>[] exchanger; 

4 Random random; 

5 public Prism(int capacity) { 

6 exchanger = (Exchanger<Integer>[]) new Exchanger[capacity] ; 
7 for (int i = 0; i < capacity; i++) { 

8 exchanger[i] = new Exchanger<Integer>(); 








9 

10 random = new Random(); 

11 

12 public boolean visit() throws TimeoutException, InterruptedException { 

13 int me = ThreadID.get(); 

14 int slot = random.nextInt (exchanger. length); 

15 int other = exchanger[slot] .exchange(me, duration, TimeUnit MILLISECONDS) ; 
16 return (me < other); 

17 





图 12-24 Prism% 


图 12-24 描 述 了 Prism 的 实现 过 程 。 构 造 函 数 将 棱镜 的 容量 (不 同 交换 机 的 最 大 数 ) 作为 
参数 。Prism 类 提供 了 单一 方法 visit( )， 该 方法 随机 地 选择 交换 机 如 果 调 用 者 从 顶 线 离 去 ， 
则 visit( ) 调 用 返回 true， 若 从 底线 离 去 则 返回 false， 如 果 没 有 交换 值 但 定时 已 到 ， 则 抛 出 一 
个 TimeoutException。 调 用 者 获得 其 线程 ID (第 13 行 )， 在 数组 中 随机 地 选择 一 个 数组 项 
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(第 14 行 )， 并 尝试 将 它 自己 的 线程 ID 与 其 伙伴 的 ID 相交 换 (第 15 行 )。 如 果 成 功 ， 则 返回 一 个 
布尔 值 ， 如 果 超 时 ， 则 重新 抛 出 TimeoutException。 





一 


1 public class DiffractingBalancer { 
2 Prism prism; 

3 Balancer toggle; 

4 public DiffractingBalancer(int capacity) { 
5 prism = new Prism(capacity); 

6 toggle = new Balancer(); 

7 } 

8 


public int traverse() { 


9 boolean direction = false; 
10 try{ 

{i if (prism.visit()) 

12 return 0; 

13 else 

14 return 1; 

15 } catch(TimeoutException ex) { 
16 return toggle.traverse(); 
17 

18 } 

19 } 











图 12-25 DiffractingBalancer 类 : 如 果 调 用 者 通过 棱镜 与 一 个 并 发 的 调用 者 配对 ， 则 不 必 
穿 过 平衡 器 

DiffractingBalancer (图 12-25) 和 常规 平衡 器 一 样 ， 提 供 一 个 traversed( ) 方 法 ， 该 
方法 返回 值 0 或 者 1。 该 类 具有 两 个 域 : prism 是 一 个 Prism 对 象 而 toggle 是 一 个 Balancer 对 象 。 
当 一 个 线程 调用 traverse() 时 ， 它 通过 prism 来 尝试 寻找 一 个 伙伴 ， 如 果 成 功 ， 伙 伴 们 返回 
不 同 的 值 ， 这 并 不 引起 toggle 上 的 争 用 (第 11 行 )。 否 则 ， 如 果 线 程 无 法 找到 伙伴 ， 则 遍历 
(第 16 行 ) toggle (作为 一 个 平衡 器 来 实现 ) 。 
E | 








1 public class DiffractingTree { 

2 DiffractingBalancer root; 

3 DiffractingTree[] child; 

4 int size; 

5 public DiffractingTree(int mySize) { 

6 size = mySize; 

7 root = new DiffractingBalancer (size); 

8 if (size > 2) { 

9 child = new DiffractingTree[] { 
10 new DiffractingTree(size/2), 
11 new DiffractingTree(size/2)}; 
12 } 

13 } 

14 public int traverse() { 

15 int half = root.traverse(); 

16 if (size > 2) { 

17 return (2 * (child[half].traverse()) + half); 
18 } else { 

19 return half; 

20 } 

21 } 

22 } 








图 12-26 DiffractingTreext: jh, 构造 国 数 以 及 traverse( ) 方 法 
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DiffractingTree 类 (图 12-26) 有 两 个 域 。 chi 1d 域 是 一 个 由 子 树 组 成 的 二 元 数组 ， 
root 域 是 一 个 DiffractingBalancer 类 型 的 成 员 变 量 ， 在 继续 调用 左 子 树 或 右 子 树 时 交 圭 变 
换 。 每 个 DiffractingBalancer 类 型 的 变量 都 有 一 个 容量 ， 它 实际 上 是 其 内 部 楼 镜 的 容量 。 
初始 时 ， 该 容量 为 树 的 大 小 ， 在 每 一 层 容量 递减 一 半 。 

与 E1iminationBack0ffStack 一 样 ， DiffractingTree 类 的 性 能 取决 于 两 个 参数 ， 棱镜 的 
容量 和 时 限 大 小 。 如 果 核 镜 容量 太 大 ， 则 线程 之 间 彼此 错过 ， 这 将 导致 在 平衡 器 上 的 过 度 和 
用 。 如 果 数 组 太 小 ， 则 会 有 过 多 的 线程 并 发 地 访问 一 个 棱镜 中 的 每 个 交换 机 ， 从 而 导致 在 交 
换 机 上 的 过 度 争 用 。 如 果 棱 镜 超时 设置 过 短 ， 线 程 则 会 彼此 错过 ， 如 果 设 置 过 长 ， 线 程 有 可 
能 会 被 不 必要 地 延迟 。 对 于 这 些 值 的 选取 没有 硬性 规定 ， 因 为 最 佳 取 值 往往 依赖 于 底层 多 处 
理 絮 系统 结构 的 负载 和 特征 。 

然而 ， 实 验 结果 表明 ， 有 些 时 候 对 这 些 值 的 选取 能 使 得 其 性 能 优 于 CombiningTree 和 
“ountingNetwork 类 。 下 面 是 一 些 从 实践 中 得 到 的 较 好 的 经 验 。 由 于 树 中 较 高 层 的 平衡 器 上 
会 有 较 大 的 争 用 ， 所 以 在 靠近 树 的 顶部 采用 较 大 的 楼 镜 ， 从 而 增加 动态 增 减 随 机 选择 范围 
的 能 力 。 最 佳 的 超时 时 限 设 置 依赖 于 负荷 : 如果 只 少许 的 线程 在 访问 树 ， 则 花 在 等 待 上 
的 时 间 大 部 分 被 浪费 了 ， 如 果 有 大 量 线程 在 访问 树 ， 那 么 花 在 等 待 上 的 时 间 是 值得 的 。 自 
返 应 的 模式 应 该 具有 较 好 的 前 景 ， 当 线程 成 功 配 对 时 ， 延 长 超时 时 限 设 定 ， 否 则 ， 缩 短 超 
时 时 限 设 定 。 


12.7 并 行 排序 


排序 是 最 重要 的 计算 任务 之 一 ， 从 19 世 纪 Hollerith 发 明 的 排序 机 器 到 20 世 纪 40 年 代 的 第 一 
代 电 子 计算 机 ， 直 至 今天 的 计算 机 ， 其 中 的 大 多 数 程序 都 使 用 了 某 种 形式 的 排序 。 大 多 数 计 
算 机 科学 专业 的 大 学 生 在 学 习 初 期 就 知道 ， 排 序 算法 的 选择 主要 依赖 于 被 排序 的 元 素 的 个 数 
它们 的 关键 字 的 数字 特性 以 及 这 些 元 素 存放 在 内 存 还 是 外 存 。 并 行 排序 算法 可 以 按 同样 的 广 
法 来 分 类 。 

下 面 介绍 两 种 排序 算法 ， 排序 网 ， 通 常 适用 于 内 存 中 较 小 的 数据 集合 ， 样 本 排序 算法 ， 
通常 适用 于 外 存 上 的 大 量 数据 集 。 在 下 面 的 讲述 中 ， 为 简单 起 见 降低 了 算法 的 性 能 。 更 加 复 
杂 的 技术 请 参阅 本 章 注释 中 的 引用 。 


12.8 排序 网 

正如 计数 网 是 由 平衡 器 组 成 的 网 络 一 样 ， 排 序 网 是 由 比较 器 组 成 的 网 络 。e 昌 比较 器 是 _- 
个 具有 两 条 输入 线 和 两 条 输出 线 ( 称 为 项 线 和 底线 ) 
的 计算 单元 。 它 从 输入 线 上 接收 两 个 数字 ， 并 将 较 > cs eo 
大 的 数字 从 顶 线 输出 ， 较 小 的 从 底线 输出 。 与 平衡 
器 不 同 的 是 ， 比 较 器 是 同步 的 ， 只 有 两 个 输入 值 都 图 12-27 比较 器 


到 达 才 会 产生 输出 ( 见 图 12-27)。 
与 平衡 网 一 样 ， 比 较 网 是 一 种 由 比较 器 组 成 的 无 环 网 络 。 输 入 值 被 放 在 它 的 w 个 输入 线 中 


的 每 一 个 线 上 。 这 些 值 同 步 地 穿 过 比较 器 的 每 一 层 ， 最 后 一 起 从 网 络 的 输出 线 上 离开 。 


日 ”历史 上 排序 网 要 比 计数 网 早出 现 几 十 年 。 
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对 于 一 个 输入 值 为 x 和 输出 值 为 y; 的 比较 网 ， 其 中 iE{0…1} 且 每 个 值 分 别 在 线 i 上 ， 如 果 它 
的 输出 值 为 输入 值 的 降序 排序 ， 即 y,_1 二 y;:， 则 该 网 络 是 一 个 有 效 的 排序 网 。 

下 面 的 经 典 定理 能 够 简化 对 任意 一 个 网 络 进行 排序 的 证 明 过 程 。 

定理 12.8.1 (0-1 原 则 ) 如 果 一 个 排序 网 能 对 所 有 的 0、1 序 列 进行 排序 ， 则 它 能 对 任意 
的 输入 值 序列 进行 排序 。 


排序 网 的 设计 


因为 可 以 回收 利用 计数 网 的 布局 方案 ， 所 以 没有 必要 去 设计 排序 网 。 对 于 平衡 网 和 比较 
网 ， 如 果 通 过 互 换 平 衡器 和 比较 器 ， 能 够 从 一 个 网 构造 出 另 一 个 网 ， 则 称 这 两 个 网 是 同 构 的 ， 
反之 亦 然 。 

定理 12.8.2 如果 一 个 平衡 网 能 够 计数 ， 则 与 之 同 构 的 比较 网 可 以 排序 。 

证 明 首先 构造 一 个 从 比较 网 转换 到 与 之 同 构 的 平衡 网 的 映射 。 

按照 定理 12.8.1， 能 够 对 所 有 0、1 序 列 进行 排序 的 比较 网 是 一 个 排序 网 。 取 任意 一 个 0、1 
序列 作为 比较 网 的 输入 ， 而 在 平衡 网 的 每 个 输入 线 1 上 放置 一 个 令 牌 ， 在 输入 线 0 上 不 放置 令 
牌 。 如 果 采 用 锁 步 的 方式 运行 两 个 网 ， 则 平衡 网 完全 模拟 了 比较 网 。 

采用 对 网 络 深度 进行 归纳 的 方法 来 证 明 。 对 于 0 层 ， 按 照 构 造 该 结论 显然 成 立 。 假 设 对 于 
第 k 层 的 线 结论 成 立 ， 下 面 证明 它 对 第 K+1 层 也 成 立 。 在 比较 网 中 当 任 一 比较 器 上 有 两 个 1 值 相 
遇 时 ， 在 平衡 网 中 的 某 个 平衡 器 上 则 会 有 两 个 令 牌 相遇 ， 所 以 在 比较 网 的 每 条 线 上 离开 的 一 
个 1 值 必 在 k+1 层 上 离开 ， 并 且 在 平衡 网 的 每 条 线 上 离开 的 令 牌 必 在 kt1 层 上 离开 。 在 比较 网 中 
当 一 个 比较 器 上 有 两 个 0 值 相遇 时 ， 在 平衡 网 中 的 某 个 平衡 器 上 则 没有 令 牌 相遇 ， 所 以 在 比较 
网 中 上 +1 层 上 的 每 条 线 上 0 值 离开 ， 在 平衡 网 中 没有 令 牌 离开 。 对 于 比较 网 中 所 有 的 0 和 1 相遇 
的 比较 器 ， 在 寻 1 层 上 ，1 从 北 线 (上 部 ) 上 离开 而 0 从 南 线 (下 部 ) 上 离开 ， 同 时 在 平衡 网 中 
令 牌 从 北 线 上 离开 ， 南 线 上 无 令 牌 离开 。 

如 果 该 平衡 网 是 一 个 计数 网 ， 即 在 它 的 输出 层 线 上 具有 步 进 特性 ， 那么 比较 网 必定 已 对 0、 
1 输入 序列 进行 了 排序 。 











[287] 





反之 却 不 一 定 成 立 : 并 非 所 有 的 排序 网 都 是 计数 网 。 如 图 12-28 所 示 ， 该 网 是 一 个 排序 网 
但 不 是 计数 网 ， 具 体 证 明 过 程 留 作 课 后 习题 。 
输入 输出 


2 4 
1 4 
| 4 | 3 
2 3 














图 12-28 0ddEven 排 序 网 


推论 12.8.1 与 Bitonic[] 和 Periodic[] 同 构 的 比较 网 是 排序 网 。 
用 比较 网 对 一 个 大 小 为 w 的 集合 进行 排序 需要 Q2(w log w) 次 比较 。 具 有 w 个 输入 线 的 排序 
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网 在 每 一 层 上 最 多 有 O(w) 个 比较 器 ， 所 以 其 深度 最 小 为 人 (logw)。 

推论 12.8.2 计数 网 的 最 小 深度 为 Q(logw)。 

双 调 排序 算法 

任意 宽度 为 w 的 排序 网 ， 例 如 Bitonic[w]， 都 可 以 看 作 是 一 个 共有 d 层 且 每 层 有 w/2 个 平衡 
器 所 组 成 的 集合 。 排 序 网 的 设计 布局 可 以 表示 为 一 张 表 ， 甚 中 的 每 个 表 项 是 一 个 元 组 对 ， 它 
描述 了 在 某 个 层 的 某 个 平衡 器 上 是 哪 两 条 线 相 遇 。( 例 如 ， 在 图 12-11 所 示 的 Bitonic[4] 中 ， 在 
第 一 层 的 第 一 个 平衡 器 上 线 0 和 线 1 相 遇 ， 在 第 二 层 的 第 一 个 平衡 器 上 线 0 和 线 3 相 遇 。) 为 简单 
起 见 ， 假 设 给 定 了 一 个 无 界 表 bitonicTable[i][d][ 站 ， 其 中 每 个 表 项 包含 了 与 4 层 的 平衡 器 i 相 
关 的 北 (0) 线 和 南 (1) 线 的 索引 。 

基于 数组 的 内 置 排序 算法 以 要 被 排序 的 元 素 所 组 成 的 数组 作为 输入 (假定 这 些 元 素 都 具 
有 唯一 的 整 型 关键 字 )， 并 返回 同一 个 按 关键 字 排 好 序 的 元 素 所 组 成 的 数组 。 下 面 介 绍 
BitonicSort 的 实现 ， 这 是 一 种 基于 双 调 排序 网 的 内 置 数组 排序 算法 。 假 设 要 对 一 个 2*p#s 个 
元 素 组 成 的 数组 进行 排序 ， 其 中 p 是 线程 个 数 (通常 也 是 线程 运行 的 最 大 可 用 处 理 器 个 数 )， 
Pxs 是 2 的 需 。 该 网 络 的 每 一 层 都 有 p#s 个 比较 器 。 

D 个 线程 中 的 每 一 个 都 模仿 s 个 比较 器 的 工作 。 与 计数 网 不 同 ， 这 种 网 就 像 不 合拍 的 舞步 ， 
而 排序 网 则 是 同步 的 : 一 个 比较 器 的 所 有 输入 必须 在 开始 计算 输出 之 前 到 达 。 该 算法 是 以 轮 
转 方式 推进 的 。 在 每 一 轮 中 ， 线 程 在 网 络 的 某 一 层 中 执行 "个 比较 操作 ， 必 要 时 交换 元 素 的 数 
组 项 ， 从 而 使 得 它们 排序 正确 。 在 网 络 的 每 一 层 ， 比 较 器 将 连接 不 同 的 线 ， 所 以 不 会 有 两 个 
线程 试图 交换 同一 个 数组 项 的 元 素 ， 从 而 避免 了 在 任意 层 进行 同步 操作 的 必要 。 

为 了 保证 在 某 一 轮 (B) 中 的 比较 能 在 其 下 一 轮 开始 之 前 完成 ， 我 们 采用 一 种 称 为 
Barrier (将 在 第 17 章 中 详细 研究 ) 的 同步 构造 。 一 个 对 于 p 个 线程 的 路 障 提供 了 await( ) 方 法 ， 
该 方法 的 调用 直到 全 部 p 个 线程 都 调用 了 await() 方 法 时 才 返 回 。 图 12-29 描 述 了 BitonicSort 











1 public class BitonicSort { 
2 static final int[][][] bitonicTable = ...; 
3 static final int width = ...; // counting network width 
4 static final int depth = ...; // counting network depth 
5 static final int p = ...; // number of threads 
6 static final int s = ...; // a power of 2 
7 Barrier barrier; 
8 ees 
9 public <T> void sort(Item<T>[] items) { 
10 int i = ThreadID.get(); 
11 for (int d = 0; d < depth; d++) { 
12 barrier.await(); 
13 for (int j = 0; j < s; j++) { 
14 int north = bitonicTable[(i»s)+j] [d] [0]; 
15 int south = bitonicTable[ (ixs)+j] [d] [1]; 
16 if (items[north].key < items[south].key) { 
17 Item<T> temp = items[north]; 
18 items[north] = items[south]; 
19 items[south] = temp; 
} 








12-29 BitonicSort# 
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的 实现 过 程 。 每 个 线程 一 轮 接 一 轮 地 通过 网 络 的 每 一 层 。 在 每 一 轮 中 ， 它 等 待 其 他 线程 到 达 
(第 12 行 )， 以 确保 items 数 组 中 包含 上 一 轮 的 结果 。 然 后 ， 该 线程 比较 对 应 于 比较 器 线 的 数组 
元 素 ， 如 果 它 们 的 key 次 序 颠 倒 ， 则 将 它们 互 换 (第 14~~19 行 )， 从 而 模仿 那个 层 中 s 个 平衡 器 
的 行为 。 

对 于 在 p 个 处 理 器 上 运行 的 p 个 线程 来 说 ，BitonicSort 需 要 O(slog”p) 的 时 间 ， 如 果 s 是 党 
数 ， 则 时 间 复 杂 度 为 O(log’p)。 


12.9 样本 排序 


BitonicSsort 排 序 适 用 于 内 存 中 较 小 数据 集 的 排序 。 对 于 较 大 的 数据 集 (元 素 个 数 4 比 线 
程 数 p 大 得 多 ) ， 特 别 是 存放 在 外 存储 设备 上 的 数据 ， 则 需要 采用 不 同 的 方式 进行 排序 。 因 为 
访问 数据 的 开销 很 大 ， 必 须 尽 可 能 地 维持 本 地 引用 ， 所 以 让 单个 线程 顺序 地 对 元 素 进行 排序 
是 比较 划算 的 。 而 类 似 于 BitonicSort 的 并 行 排序 ， 它 允许 一 个 元 素 由 多 个 线程 访问 ， 这 样 做 
显然 开销 太 大 。 

下 面 尝 试 通过 随机 化 法 使 访问 一 个 给 定 元 素 的 线程 个 数 最 小 化 。 这 种 随机 的 使 用 不 同 于 
DiffractingTree， 它 是 采用 随机 方式 来 分 布 内 存 访问 。 下 面 通过 使 用 随机 方式 来 猜测 在 要 
排序 的 数据 集合 中 元 素 的 分 布 情况 。 

由 于 要 排序 的 数据 集 很 大 ， 可 以 将 它 分 为 多 个 桶 ， 将 key 值 在 同一 个 范围 的 元 素 放 入 一 个 
桶 中 。 然 后 ， 每 个 线程 使 用 顺序 排序 算法 对 每 个 桶 中 的 元 素 进行 排序 ， 结 果 则 是 一 个 排 好 序 
的 集合 (按照 适当 的 桶 序 来 看 ) 。 该 算法 是 著名 的 快速 排序 算法 的 一 般 化 表达 ， 但 不 是 采用 一 
个 分 烈 器 键 将 元 素 划 分 为 两 个 子 集 ， 而 是 有 p 一 1 个 分 裂 器 键 将 输入 集 划 分 为 p 个 子 集 。 

这 种 对 于 n 个 元 素 和 p 个 线程 的 算法 包括 三 个 阶段 : 

1. 线程 选择 p 一 1 个 分 裂 器 键 将 数据 集 划 分 为 p 个 桶 ， 这 些 分 裂 器 键 是 公开 的 ， 所 有 的 线程 
都 可 以 读 取 它们 。 

2. 每 个 线程 顺序 地 处 理 n/p 元 素 ， 将 每 个 元 素 放 入 它 自己 的 桶 中 ， 基 中 相应 的 桶 是 通过 对 
分 裂 器 键 之 间 的 元 素 键 值 进行 二 分 查找 来 得 到 的 。 

3. 每 个 线程 对 其 桶 中 的 元 素 进行 顺序 排序 。 

阶段 之 间 的 路 障 能 够 确保 所 有 的 线程 在 开始 下 一 个 阶段 之 前 都 已 完成 了 本 阶段 的 工作 。 

在 讨论 第 一 个 阶段 之 前 ， 首 先 来 讨论 第 二 个 阶段 和 第 三 个 阶段 。 

第 二 个 阶段 的 时 间 复 杂 度 为 (wp)logp， 它 包括 从 内 存 、 磁 盘 或 磁带 上 读 取 每 个 元 素 的 时 
间 、 对 本 地 缓存 中 的 p 个 分 裂 器 的 二 分 查找 时 间 以 及 将 元 素 放 入 指定 的 桶 的 时 间 。 元 素 所 放 入 
的 桶 可 以 是 内 存 、 磁 盘 或 磁带 ， 所 以 主要 的 开销 是 对 存储 数据 元 素 访问 n/p 次 的 时 间 。 

令 b 是 桶 中 元 素 的 个 数 。 一 个 给 定 线程 在 第 三 阶段 的 时 间 复 杂 度 是 O(blogb)， 它 是 使 用 顺 
序 算法 (快速 排序 ) 9 对 元 素 进 行 排序 的 时 间 。 这 部 分 的 开销 最 大 ， 因 为 它 是 由 访问 慢 速 设 
备 〔 磁 盘 或 磁带 ) 的 读 / 写 阶段 所 组 成 的 。 

算法 的 时 间 复 杂 度 取决 于 在 第 三 阶段 桶 中 元 素数 目 最 多 的 线程 。 因 此 ， 尽 可 能 选择 分 裂 
器 均匀 地 分 布 元 素 显得 特别 重要 ， 即 在 第 二 阶段 中 ， 每 个 桶 大 约 应 存放 np 个 元 素 。 

选择 好 的 分 裂 器 的 关键 就 是 给 每 个 线程 选取 一 个 样本 分 裂 器 集合 ， 用 来 表示 它 自己 的 np 





日 ”如 果 元 素 键 值 大 小 已 知 且 固 定 ， 可 以 使 用 基数 排序 之 类 的 算法 。 
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大 小 的 数据 集 ， 然 后 从 所 有 线程 的 所 有 样本 分 裂 器 集中 选择 最 终 的 p 一 1 个 分 裂 器 。 每 个 线程 随 
机 均匀 地 从 它 的 大 小 为 np 的 数据 集中 挑选 s 个 key。( 实 际 中 ，s 通 常 为 32 或 64。) 然后 ， 每 个 
线程 都 加 入 到 并 行 BitonicSort (图 12-29) 的 运行 中 ， 对 p 个 线程 所 选取 的 s*p 个 样本 key 值 进 
行 处 理 。 最 后 ， 每 个 线程 在 已 排序 的 分 裂 器 集合 中 的 s，2s ，…，(p 一 1)s 处 读 取 p 一 1 个 分 裂 器 
的 key 值 ， 并 将 它们 作为 第 二 阶段 中 的 分 裂 器 。 这 种 s 个 样本 的 选择 以 及 随后 的 从 已 排序 的 所 
有 样本 集合 中 选择 最 后 的 分 裂 器 的 方法 ， 将 会 降低 在 线程 访问 的 a-p 大 小 的 数据 集 上 key 分 布 
不 均匀 所 带 来 的 影响 。 

例如 ， 一 个 样本 排序 算法 可 以 选择 让 每 个 线程 在 它 自己 的 n/p 大 小 的 数据 集中 选取 第 二 阶 
段 的 p 一 1 个 分 裂 器 ， 而 不 用 与 其 他 线程 进行 通信 。 这 种 方法 存在 的 问题 是 ， 如 果 数 据 的 分 布 不 
均匀 ， 桶 的 大 小 有 可 能 差异 很 大 ， 性 能 将 会 受到 影响 。 例 如 ， 如 果 在 最 大 的 桶 中 元 素 的 个 数 
为 一 般 情形 的 两 倍 ， 那 么 排序 算法 的 最 坏 时 间 复 杂 度 也 将 加 信 。 

第 一 个 阶段 的 时 间 复 杂 度 为 进行 随机 取样 时 间 s (常数 )， 而 并 行 双 调 排 序 则 为 O(log?p)。 
对 于 具有 好 的 分 裂 器 集 (每 个 桶 中 有 n/p 个 元 素 ) 的 样本 排序 算法 ， 其 总 的 时 间 复 杂 度 为 

O(log’p)+O((n/p)logp)+O((n/p)log(n/p)) 

总 的 来 说 是 O((n/p)log(n/p))。 


12.10 分 布 式 协 作 


本 章 讲 述 了 几 种 分 布 式 协作 模式 ， 其 中 的 一 些 (例如 ， 组 合 树 、 排 序 网 以 及 样本 排序 ) 
具有 高 并 行 性 和 低 开 销 。 所 有 这 些 算法 都 包含 同步 瓶颈 ， 即 线程 计算 过 程 中 必须 等 待 与 其 他 
线程 会 合 的 点 。 在 组 合 树 中 ， 线 程 必须 同步 地 进行 组 合 ， 而 在 排序 中 ， 线 程 则 必须 在 路 障 点 
等 待 。 

在 其 他 模式 中 ， 例 如 计数 网 和 衍射 树 ， 线 程 无 需 相互 等 待 。( 虽 然 使 用 了 synchronized 方 
法 来 实现 平衡 器 效果 ， 但 也 可 以 通过 compareAndSet ( ) 方 法 以 无 锁 的 方式 来 实现 。) 这 些 分 布 
式 结 构 能 在 线程 之 间 传 递 信息 ， 虽 然 可 以 证 明 会 合 具 有 一 些 优点 (如 在 Prism 数 组 中 )， 但 它 
并 不 是 必需 的 。 

随机 化 在 许多 场合 都 是 非常 有 用 的 ， 它 能 使 工作 分 布 均匀 化 。 在 衍射 树 中 ， 对 多 个 内 存 
单元 采用 随机 化 来 分 布 工作 ， 从 而 减少 了 过 多 的 线程 同时 访问 同一 单元 的 概率 。 在 样本 排序 
中 ， 采 用 随机 化 方式 能 够 将 工作 均匀 地 分 布 在 多 个 桶 中 ， 以 便 线程 随后 并 行 地 排序 。 

最 后 ， 流 水 线 能 够 确保 某 些 数据 结构 即使 具有 较 长 时 延 ， 却 仍 能 具有 较 高 的 吞吐 量 。 

虽然 我 们 着 重 于 共享 存储 器 的 多 处 理 器 ， 但 值得 一 提 的 是 ， 本 章 中 介绍 的 分 布 式 算法 和 
数据 结构 同样 适用 于 消息 传递 的 系统 结构 。 消 息 传递 模型 可 以 直接 通过 硬件 来 实现 (例如 多 
处 理 器 网 络 )， 也 可 以 在 共享 存储 器 系统 结构 上 通过 一 个 软件 层 (如 MPI) 来 实现 。 

在 共享 存储 器 系统 结构 中 ， 交 换 机 (如 组 合 树 结 点 或 平衡 器 ) 都 是 作为 共享 存储 器 的 计 
数 器 来 实现 的 。 但 在 消息 传递 的 系统 结构 中 ， 交 换 机 是 作为 本 地 处 理 器 的 数据 结构 来 实现 的 ， 
其 中 处 理 器 之 间 的 连 线 同样 也 是 交换 机 之 间 的 连接 线 。 当 一 个 处 理 器 接收 到 一 条 信息 时 ， 它 
自动 更 新 它 的 本 地 数据 结构 并 将 消息 传递 给 管理 其 他 交换 机 的 处 理 器 。 


12.11 本 章 注释 


组 合 树 的 思想 归功 于 Allan Gottlieb, Ralph Grishman, Clyde Kruskal, Kevin McAuliffe, 
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Larry Rudolph 和 Marc Snir[47]。 本 章 描 述 的 软件 CombingTree 则 来 自 PenChung Yew, Nian- 
Feng Tzeng 和 Duncan Lawrie[151]， 并 由 Beng-Hong Lim 等 人 [65] 对 其 进行 了 修改 ， 所 有 这 些 
算法 都 是 基于 James Goodman, Mary Vernon 和 Philip Woest[45] 最 早 提出 的 设计 思想 。 

计数 网 是 由 Jim Aspnes, Maurice Herlihy 和 Nir Shavit[16] 所 发 明 的 。 计 数 网 与 排序 网 相关 ， 
包括 由 Kennenth Batcher[18] 黄 定 的 双 调 网 ， 以 及 由 Martin Dowd, Yehoshua Perl, Larry 
Rudolph 和 Mike Saks[35] 提 出 的 周期 网 。Mikl6s Ajtai, Janos Koml6s 和 Endre Szemerédi 发 明了 
AKS 排 序 网 ， 这 是 一 种 深度 为 0(ogw) 的 排序 网 [8]。( 这 种 渐 近 描述 隐藏 了 大 量 常数 ， 使 基于 
AKS 的 网 变 为 不 实用 的 。) 

Mike Klugerman 和 Greg Plaxton[84,85] 最 早 提 出 了 一 种 基于 AKS 的 深度 为 O(logw) 的 计数 
网 构造 。 排 序 网 的 0-1 原 则 是 由 Donald Knuth[86] 提 出 的 。 一 组 类 似 的 关于 平衡 网 的 规则 是 由 
Costas Busch 和 Marios Mavronicolas[25] 提 出 的 。 衍 射 树 是 由 Nir Shavit 和 Asaph Zemach[143] 
所 提出 的 。 

样本 排序 是 由 John Reif, Leslie Valiant[132] 以 及 Huang 和 Chow[73] 提 出 的 。 与 顺序 所 有 
样本 排序 算法 相关 的 顺序 快速 排序 算法 是 由 Tony Hoare[70] 提 出 的 。 在 文献 中 有 许多 并 行 基数 
排序 算法 ， 例 如 ， 由 Daniel Jiménez-Gonzdlez, Joseph Larriba-Pey 和 Juan Navarro[82] 提 出 的 
算法 ， 以 及 由 Shin-Jae Lee, Minsoo Jeon, Dongseung Kim 和 Andrew Sohn[101] 提 出 的 算法 。 

《 巨 蟒 与 圣杯 》 是 由 Graham Chapman, John Cleese, Terry Gilliam, Eric Idle, Terry 
Jones 和 Michael Palin 所 撰写 的 ， 并 由 Terry Gilliam 和 Terry Jones[27] 共 同 导 演 。 


12.12 习题 


习题 134. 证 明 引 理 12.5.1。 

习题 135. 实现 一 个 三 元 CombiningTree， 也 就 是 说 ， 最 多 允许 来 自 三 个 子 树 的 三 个 线程 在 一 个 给 
定 的 结 点 进行 组 合 。 与 三 元 组 合 树 相 比 ， 你 认为 它 有 什么 样 的 优点 和 缺点 ? 

习题 136. 实现 一 个 CombiningTree， 通 过 使 用 Exchanger 对 象 来 完成 正在 沿 树 上 升 或 下 降 的 线程 间 
的 协作 ， 这 种 构造 与 12.3 节 中 的 CombiningTree 相 比 ， 有 什么 样 的 缺点 ? 

习题 137. 基于 12.2 节 描述 的 共享 地 ， 对 每 个 数组 项 使 用 两 个 简单 计数 器 及 一 个 ReentrantLock 来 实 
现 一 个 循环 数组 。 

习题 138. 给 出 一 种 有 效 的 Balancer 的 无 锁 实 现 。 

习题 139. (难题 ) 给 出 一 种 有 效 的 Balancer 的 无 等 待 实现 (不 使 用 通用 构造 ) 。 

习题 140. 证 明 12.6 节 中 的 Tree[26] 平 衡 网 是 计数 网 ， 也 就 是 说 ， 在 任何 静止 状态 下 ， 其 输出 线 上 的 
令 牌 序列 具有 步 进 特性 。 

习题 141. 令 B 是 一 个 处 于 静止 状态 s 下 深度 为 4、 宽 度 为 w 的 平衡 网 。 令 n=2"。 证 明 如 果 n 个 令 牌 从 
同一 个 输入 线 上 进入 网 络 、 穿 过 网 络 并 离开 网 络 ， 则 B 在 令 牌 离开 网 络 以 后 的 状态 与 令 牌 进入 网 
络 之 前 的 状态 相同 。 

在 下 面 的 习题 中 ,，k- 光 滑 序列 是 一 个 满足 下 列 要 求 的 序列 yo，…，yii: 

如 果 i<j， 则 ly 一 yj 

习题 142. 令 X 和 7 是 长 度 为 w 的 kk- 光滑 序列 。 平 衡器 关于 X 和 7 的 一 个 匹配 层 是 这 样 的 一 个 层 ， 即 X 中 

的 每 个 元 素 通 过 一 个 平衡 器 he 对 一 的 方式 相连 接 。 
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证 明 : 如 果 X 和 Y 都 是 -光滑 的 ， 且 X 和 Y 匹 配 后 的 结果 为 Zz， 则 2Z 是 (k+1)- 光 滑 的 。 
习题 143. 考虑 一 个 Block[k] 网 ， 其 中 每 个 平衡 器 被 初始 化 为 任意 状态 (上 或 下 )。 证 明 无 论 输 入 如 
何 分 布 ， 输 出 分 布 总 是 (log 昌 -光滑 的 。 
提示 : 可 以 利用 习题 142 的 结论 。 
习题 144. 光滑 网 是 一 种 平衡 网 ， 能 够 保证 在 任何 静止 状态 下 输出 序列 是 1- 光 滑 的 。 
计数 网 是 光滑 网 ， 但 反之 不 一 定 成 立 。 
布尔 排序 网 是 一 种 所 有 输入 都 为 布尔 值 的 排序 网 。 伪 排序 平衡 网 定义 为 一 种 布局 与 布尔 排 
序 网 同 构 的 平衡 网 。 
令 和 是 一 个 由 宽度 为 w 的 光滑 网 5 和 宽度 为 w 的 伪 排 序 平衡 网 ?组 成 的 平衡 网 ， 其 中 5 的 第 i 个 
输出 线 连接 到 ?的 第 ;个 输入 线 上 。 
证 明和 是 一 个 计数 网 。 
习题 145. 3- 平 衡器 是 一 种 具有 三 条 输入 线 和 三 条 输出 线 的 平衡 器 。 同 2- 平 衡器 一 样 ， 在 任何 静止 
状态 下 其 输出 序列 都 具有 步 进 特性 。 使 用 3- 平 衡器 和 2- 平 衡器 构建 一 个 具有 6 条 输入 和 输出 线 且 
深度 为 3 的 计数 网 ， 并 说 明 它 能 正常 工作 的 理由 。 
习题 146. 修改 BitonicSort 类 使 得 它 能 对 宽度 为 w 的 输入 数组 进行 排序 ， 其 中 w 不 是 2 的 需 。 
习题 147. 考虑 下 面 的 w- 线 程 计数 算法 。 每 个 线程 首先 使 用 一 个 宽度 为 w 的 双 调 计数 网 来 获得 一 个 计 
数 器 值 。 然 后 穿 过 一 个 等 待 滤波 器 ， 在 该 滤波 器 中 每 个 线程 等 待 其 他 具有 较 小 值 的 线程 直上 。 
等 待 滤 波 器 是 一 个 大 小 为 w 的 布尔 数组 fi1ter[]。 定 义 相 函 数 
P(v) = |(v/w) | mod2 


一 个 以 值 离 开 的 线程 在 fi1ter[(v-1) mod n] 上 自 旋 ， 直 到 该 值 被 置 为 G6(v-1)， 该 线程 通过 
将 filter[y mod w] 设置 为 B(v) 来 作出 响应 ， 然 后 返回 值 v。 
1. 解释 为 什么 这 种 计数 器 实现 是 可 线性 化 的 。 
2. 在 习题 中 已 证 明 任 意 可 线性 化 的 计数 网 其 深度 至 少 为 w。 解释 为 什么 fi1ter[] 的 构造 没有 违背 
这 个 规则 。 
3. 在 基于 总 线 的 多 处 理 器 系统 中 ， 这 种 fi1ter[] 构 造 是 否 比 由 自 旋 锁 保护 的 单独 变量 具有 更 高 的 
吞吐 量 ? 说 明 其 理由 。 

习题 148. 如 果 序 列 X=x6o，…，x,_1 是 k- 光 滑 的 ， 那么 X 穿 过 平衡 网 后 的 结果 仍然 是 一 个 k- 光 滑 序 列 。 

习题 149. 证 明 Bitonic[w] 网 的 深度 为 (ogw)(1+logw)/2 且 需要 (wlogw)(1+logw)/4 个 平衡 器 。 

习题 150. (难题 ) 给 出 一 种 无 锁 的 DiffractingBalancer 实 现 。 

习题 151. 给 DiffractingBalancer 的 Pri sm 增加 一 种 自 适 应 的 定时 机 制 。 

习题 152. 证 明 图 12-28 所 示 的 0ddEven 网 是 排序 网 但 不 是 计数 网 。 

习题 153. 计数 网 除了 能 自 增 外 还 能 做 其 他 事 吗 ? 考虑 一 种 称 为 反 令 牌 的 新 令 牌 ， 可 以 用 它 来 自 减 。 
当 令 牌 访问 平衡 器 时 ， 它 执行 一 次 getAndComplement( ) :自动 地 读 取 触 发 器 值 并 对 其 取 反 ， 然 后 
从 原先 触发 器 值 所 指定 的 输出 线 离 开 。 然 而 ， 反 邻 牌 先 对 触发 器 值 取 反 ， 然后 从 新 的 触发 器 值 
所 指定 的 输出 线 离开 。 通 俗 地 说 ， 反 令 牌 “消除 ” 了 最 近 的 令 牌 对 平衡 器 的 触发 状态 的 影响 ， 
反之 亦 然 。 

我 们 不 再 简单 地 平衡 每 条 线 上 出 现 的 令 牌 个 数 ， 而 是 给 每 个 令 牌 赋 一 个 权 值 +1， 给 每 个 反 

令 牌 赋 一 个 权 值 一 1。 扩展 步 进 特性 使 得 在 所 有 线 上 出 现 的 令 牌 和 反 令 牌 权 值 的 和 也 具有 步 进 特 
性 。 我 们 称 这 种 特性 为 加 权 的 步 进 特性 。 
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public synchronized int antiTraverse() { 
try { 
if (toggle) { 
return 1; 
} else { 
return 0; 


} finally { 
toggle = !toggle; 
} 
} 
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图 12-30 antiTraverse() 方 法 


图 12-30 描 述 了 antiTraverse() 方 法 的 实现 ， 该 方法 能 够 使 一 个 反 令 牌 穿越 平衡 器 。 在 其 他 
的 网 中 增加 antiTraverse( ) 方 法 的 实现 则 留 作 习 题 。 

令 B 是 一 个 处 于 静止 状态 ;下 的 深度 为 4、 宽 度 为 w 的 平衡 网 。 令 n=2”。 证 明 : 如 果 n 个 令 牌 从 
同一 条 输入 线 上 进入 网 络 、 穿 过 网 络 ， 直 到 最 后 退出 网 络 ， 则 2B 在 令 牌 退出 以 后 的 状态 与 令 牌 进 
入 网 络 之 前 的 状态 相同 。 

习题 154. 令 B 是 一 个 处 于 静止 状态 s 的 平衡 网 ， 假 设 一 个 令 牌 在 线 i 上 进入 并 穿 过 该 网 ， 使 网 络 的 状 
EAs. ER: 如 果 现 在 让 一 个 反 令 牌 从 线 i 上 进入 并 穿 过 这 个 网 ， 则 该 网 将 返回 到 状态 s。 

习题 155. 证 明 : 如 果 平 衡 网 B 对 于 令 牌 来 说 是 一 个 计数 网 ， 那 么 对 于 令 牌 和 反 令 牌 来 说 它 也 是 一 
个 平衡 网 。 

习题 156. 交换 网 是 一 个 有 向 图 ， 其 中 边 代 表 线 ， 结 点 代表 交换 机 。 每 个 线程 引导 一 个 令 牌 穿 过 网 
络 。 人 允许 交换 机 和 令 牌 具有 内 部 状态 。 令 牌 通 过 一 条 输入 线 到 达 交 换 机 。 在 一 个 原子 步 中 ， 交 
换 机 吸收 令 牌 ,改变 它 自 己 的 状态 (也 可 能 改变 令 牌 的 状态 ) ， 然 后 从 输出 线 上 将 令 牌 发 射出 去 。 
为 简单 起 见 ， 假 设 交换 机 具有 两 条 输入 线 和 两 条 输出 线 。 注 意 交 换 网 的 功能 比 平衡 网 更 加 强大 ， 
因为 不 仅 令 牌 具有 各 种 状态 ， 交 换 机 也 可 以 有 任意 状态 (而 不 是 只 有 一 个 位 )。 

加 法 网 络 是 一 种 允许 线程 增加 (或 减少 ) 任意 值 的 交换 网 。 

如 果 一 个 令 牌 在 一 个 交换 机 的 任意 一 条 输入 线 上 ， 则 称 这 个 令 牌 在 该 交换 机 前 面 。 从 处 于 
静止 状态 go 的 网 开始 ， 下 一 个 要 运行 的 令 牌 取 值 为 0。 假 设 有 一 个 权 为 的 令 牌 1 和 7m-1 个 权 为 的 
令 牌 f，…，t,1， 其 中 b>a， 且 每 个 令 牌 在 不 同 的 输入 线 上 。 用 Ss 表 示 i 从 初始 状态 qo 开始 遍历 该 
网 络 时 遇 到 的 所 有 交换 机 的 集合 。 

证 明 : 如 果 让 #1 ，…，t,_/ 一 次 一 个 地 穿 过 这 个 网 ， 则 每 个 都 能 够 在 5 的 一 个 交换 机 前 面 
中 止 。 

在 这 个 构造 结束 时 ，n 一 1 个 令 牌 在 s 中 的 交换 机 前 。 由 于 交换 机 具有 两 条 输入 线 ， 那 么 ! 穿 过 
该 网 的 路 径 上 至 少 包含 n 一 1 个 交换 机 ， 所 以 任意 加 法 网 络 的 深度 至 少 为 一 1， 其 中 n 是 最 大 的 并 
发 令 牌 数 。 这 种 限制 并 不 令 人 满意 ， 因 为 它 意味 着 网 络 的 规模 依赖 于 线程 个 数 ( 该 结论 也 适用 
于 CombiningTree， 但 不 适用 于 计数 网 ) ， 即 这 种 网 本 身 是 高 时 延 的 。 

习题 157. 扩展 习题 156 的 证 明 方法 ， 论 证 可 线性 化 的 计数 网 的 深度 至 少 为 m。 
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并 发 哈 希 和 固有 并 行 


13.1 引言 


在 前 面 的 章节 中 ,阐述 了 如 何 从 队列 、 栈 、 计 数 器 这 些 看 似 无 法 并 行 的 数据 结构 中 获取 
并 行 性 。 本 章 将 采用 一 种 与 之 截然 不 同 的 方法 ， 研 究 并 发 哈 希 技术 。 该 问题 看 起 来 像 是 “ 自 
然 可 并 行 的 ”， 或 更 专业 地 称 之 为 不 相交 的 并 发 访问 。 也 就 是 说 ， 并 发 的 方法 调用 可 能 访问 不 
相交 的 存储 单元 ， 从 而 不 再 需要 同步 。 

哈 布 是 一 种 在 顺序 Set 的 实现 中 经 常 使 用 的 技术 ， 用 于 确保 contains()、add() 和 
remove( ) 调 用 的 平均 时 间 为 常量 。 第 9 章 的 并 发 Set 实 现 要 求 时 间 与 集合 的 大 小 呈 线 性 关系 。 
本 章 将 研究 各 种 能 使 哈 希 并 行 的 方法 ， 有 时 采用 锁 有 时 不 用 锁 。 尽 管 哈 希 看 上 去 是 自然 并 行 
的 ， 但 设计 一 种 有 效 的 并 发 哈 希 算法 却 并 非 易 事 。 

和 前 面 一 样 ，Set 接 口 提供 以 下 具有 布尔 返回 值 的 方法 : 

e adde) 向 集合 中 添加 xz， 如 果 * 原 先 不 在 集合 中 ， 则 返回 zrwe， 否 则 返回 false, 

“remove(x) 从 集合 中 删除 x+， 如 果 x 原 先 在 集合 中 ， 则 返回 true， 否 则 返回 false。 

。 如 果 x 在 集合 中 ， 则 方法 contains(x) 返 回 true， 否则 返回 false。 

在 集合 的 实现 中 ， 应 遵循 以 下 原则 :可 以 分 配 更 多 的 内 存 ， 但 不 能 占用 更 多 的 时 间 。 如 
果 要 在 一 个 运行 得 更 快 但 耗费 更 多 内 存 的 算法 和 一 个 运行 较 慢 但 消耗 较 少 内 存 的 算法 之 间 做 
出 选择 的 话 ， 应 该 更 倾向 于 前 者 (这 是 情理 之 中 的 事情 )。 

Gik (有 了 时 称 为 哈 希 表 ) 是 一 种 实现 集合 的 有 效 方法 。 哈 布 集 通常 用 一 个 称 为 表 的 数 
组 来 实现 。 每 个 表 项 是 对 一 个 或 多 个 元 素 的 引用 。 哈 希 函 数 将 元 素 映射 为 整数 ， 不 同 的 元 素 
通常 被 映射 为 不 同 的 值 。( 为 此 ，Java 为 每 个 对 象 提供 了 一 个 hashCode() 方 法 。) 若 要 增加 . 
删除 或 者 检测 一 个 元 素 是 否 为 集合 的 成 员 ， 则 对 该 元 素 使 用 哈 希 函数 (以 表 的 大 小 求 模 )， 从 
而 确定 与 该 元 素 相关 的 表 项 ( 称 为 对 元 素 进行 哈 希 ) 。 

在 基于 哈 希 的 集合 算法 中 ， 如 果 每 个 表 项 都 与 单个 元 素 相关 联 ， 则 称 为 开放 地 址 法 。 如 
采 每 个 表 项 指向 一 个 元 素 集 ( 称 为 桶 ) ， 则 称 为 封闭 地 址 法 。 

任何 一 个 哈 希 集 算法 都 要 解决 冲突 问题 ， 当 两 个 不 同 的 元 素 哈 希 到 同一 个 表 项 时 该 如 何 
处 理 。 开 放 地 址 算法 通常 使 用 另外 一 个 哈 希 函数 来 检测 可 替换 的 表 项 。 封 闭 地 址 算法 则 将 神 
突 元 素 放 在 同一 个 桶 中 ， 直 到 这 个 桶 变 得 太 满 为 止 。 这 两 种 算法 有 时 都 需要 重新 调整 表 的 大 
小 。 在 开放 地 址 算 靶 中 ， 表 有 可 能 变 得 太 满 以 致 无 法 找到 可 替代 的 表 项 ， 而 在 封闭 地 址 算法 
中 ， 桶 有 可 能 变 得 过 大 以 致 无 法 进行 有 效 的 查找 。 

一 些 有 趣 的 实践 结果 表明 ， 在 大 多 数 应 用 中 ， 集 合 的 方法 调用 遵循 如 下 的 分 布 
contains( ) 占 90%，add() 占 9% ，remove( ) 占 1%。 实 际 情形 中 ， 集 合 往往 可 能 增 大 而 不 是 变 
小 ， 所 以 ， 本 章 集中 讨论 可 扩展 的 哈 希 法 ， 即 只 允许 哈 希 集 增 大 (缩小 哈 希 集 将 留 作 习 题 )。 

因为 并 行 化 封闭 地 址 哈 希 集 算法 相对 较为 简单 ， 下 面 先 来 研究 这 种 算法 。 
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13.2 封闭 地 址 哈 希 集 


编程 提示 13.2.1 本 书 中 ， 采 用 标准 的 Java List<T> 接 口 (在 java.uti1.List 包 中 )。 
List<T> 是 对 象 T 的 有 序 集合 ， 其 中 T 是 对 象 的 类 型 。 此 处 采用 了 List 方 法 ，add(x) 将 x 添加 
到 链表 的 末尾 ，get() 返 回 (但 不 删除 ) 位 置 i 的 元 素 ，contains(x) 则 在 链表 中 包含 + 时 返回 
true。 还 有 其 他 一 些 方法 。 

可 以 用 多 种 类 实现 List 接 口 。 为 方便 起 见 ， 此 处 采用 ArrayList 类 。 


首先 通过 定义 一 个 对 所 有 的 并 发 封闭 地 址 哈 希 集 公共 的 基础 哈 希 集 来 展开 我 们 的 讨论 。 
BaseHashSet<T> 是 一 个 抽象 类 ， 也 就 是 说 ， 不 必 实 现 它 的 所 有 方法 。 然 后 再 考虑 三 种 可 替换 使 用 的 
同步 技术 : 一 种 采用 单一 的 粗 粒度 锁 ， 一 种 使 用 固定 大 小 的 锁 数组 ， 另 一 种 使 用 大 小 可 变 的 锁 数 组 。 B00 
图 13-1 描 述 了 基础 哈 希 集 的 域 和 构造 函数 。table[] 域 是 一 个 桶 数组 ， 每 个 桶 是 一 个 用 链 
表 实 现 的 集合 (第 2 行 )。 为 了 方便 起 见 ， 此 处 采用 了 ArrayList<T> 链 表 ， 它 支持 标准 的 顺序 
add()、remove() 和 contains() 方 法 。setSize 域 是 表 中 元 素 的 个 数 (第 3 行 )。 有 时 将 
table[ ] 数 组 的 长 度 (数组 中 桶 的 个 数 ) 称 为 表 的 容量 。 























1 public abstract class BaseHashSet<T> { | 
2 protected List<T>[] table; 

3 protected int setSize; 

4 public BaseHashSet(int capacity) { 

5 setSize = 0; 

6 table = (List<T>[]) new List[capacity]; 
7 for (int i = 0; i < capacity; i++) { 

8 table[i] = new ArrayList<T>(); 

9 } 

10 } 





F aia 








图 13-1 BaseHashSet<T>2k; 域 和 构造 函数 


BaseHashSet<T> 类 中 没有 实现 下 列 抽象 方法 : acquire(x) 能 获得 对 元 素 x 进 行 操作 时 所 必 
需 的 锁 ，release(x) 则 释放 这 些 锁 ，policy( ) 用 于 决定 是 否 改变 集合 的 大 小 ;resize( ) 将 数 
组 table[] 的 容量 加 倍 。acquire(x) 方 法 必须 是 可 重 入 的 (第 8 章 8.4 节 )， 也 就 是 说 ， 如 果 一 个 
已 调用 了 acquire(x) 的 线程 再 次 调用 该 方法 ， 那 么 该 线程 能 继续 推进 而 不 会 与 自己 发 生死 锁 。 

图 13-2 描 述 了 BaseHashSet<T> 类 中 的 contains(x) 和 add(x) 方 法 。 每 个 方法 首先 调用 
acquire(x) 进 行 必要 的 同步 ， 然 后 进入 try 语 句 块 ， 并 由 它 的 fina11y 块 调用 re1lease(x)。 
contains(x) 方 法 只 是 简单 地 测试 是否 在 对 应 的 桶 中 (第 17 行 )， 若 x 不 在 链表 中 ， 则 由 add(x) 
将 其 加 入 (第 27 行 )。 

应 如 何 确定 桶 数组 的 容量 ， 以 确保 方法 调用 所 耗费 的 时 间 是 预期 的 常数 ”以 add00) 的 调用 为 例 。 
第 一 步 ， 对 x 做 哈 希 处 理 ， 耗 费 固定 时 间 。 第 二 步 ， 将 该 元 素 添加 到 桶 中 ， 这 需要 遍历 链表 。 只 有 
当 链 表 的 长 度 为 预期 的 常数 时 ， 遍 历 链 表 所 耗费 的 时 间 才 会 是 预期 的 常数 ， 因 此 ， 表 的 容量 必须 与 
表 中 元 素 的 个 数 成 正比 。 由 于 该 数目 可 能 随时 间 发 生 不 可 预知 的 变化 ， 所 以 若 要 确保 方法 调用 的 时 
间 (或 多 或 少 ) 为 常数 ， 必 须 不 断 地 调整 表 的 大 小 ， 以 确保 链表 的 长 度 (或 多 或 少 ) 保持 为 常数 。 

还 需 确 定 何 时 调整 哈 希 集 以 及 如 何 让 resize( ) 方 法 与 其 他 方法 同步 。 对 此 有 多 种 可 行 的 
选择 。 对 封闭 地 址 算法 ， 一 种 简单 的 策略 就 是 ， 当 桶 的 平均 大 小 超出 一 个 固定 阔 值 时 ， 调 整 


214 第 二 部 分 实 践 


集合 的 大 小 ， 另 一 种 可 选 的 策略 是 ， 使 用 两 个 固定 的 整数 值 ， 分 别 作为 桶 的 阅 值 和 全 局 阅 值 。 
* 如 有 果 有 一 定量 的 桶 (比如 说 1/4) 超出 桶 的 阔 值 ， 则 将 表 的 容量 加 倍 。 
“如 有 果 任 意 一 个 桶 超过 了 全 局 效 值 ， 则 将 表 的 容量 加 倍 。 
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public boolean contains(T x) { 
acquire(x); 
try { 
int myBucket = x.hashCode() % table.length; 
return table[myBucket] .contains(x); 
} finally { 
release(x); 





} 
public boolean add(T x) { 
boolean result = false; 
acquire(x); 
try { 
int myBucket = Math.abs(x.hashCode() % table.length); 
if (! table[myBucket].contains(x)) { 
table[myBucket] .add(x); 
result = true; 
sizet+; 
} 
} finally { 
release(x); 


} 

if (policy()) 
resize(); 

return result; 


} 








图 13-2 BaseHashSet<T>2&; contains() 和 add( ) 方 法 对 元 素 进行 哈 希 来 选择 桶 
在 实际 应 用 中 ， 这 两 种 策略 和 其 他 策略 一 样 ， 效 果 都 很 好 。 开 放 地 址 算法 则 稍微 复杂 一 


些 ， 稍 后 讨论 。 


13.2.1 粗 粒度 哈 希 集 


图 13-3 描 述 了 CoarseHashSet<T> 类 的 域 、 构 造 函 数 、 acquire(x) 方 法 和 release(x) 方 法 。 
构造 函数 首先 初始 化 它 的 超 类 (第 4 行 )。 同 步 则 是 由 单一 的 可 重 入 锁 (第 2 行 ) 保证 的 ， 该 锁 
可 通过 acquired(x) 获 得 (第 8 行 )， 由 release(x) 释 放 (第 11 行 )。 








public class CoarseHashSet<T> extends BaseHashSet<T>{ 
final Lock lock; 
CoarseHashSet (int capacity) { 
super (capacity); 
lock = new ReentrantLock(); 
} 
public final void acquire(T x) { 
lock. Tock(); 


public void release(T x) { 
lock.unlock(); 


; ssa 








图 13-3 CoarseHashSet<T> 类 : 域 、 构 造 函 数 、acquire( ) 方 法 和 release( ) 方 法 
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图 13-4 描 述 了 CoarseHashSet<T> 类 的 po1icy() 和 resize() 方 法 。 此 处 采用 了 一 种 简单 的 
策略 : 当 桶 的 平均 长 度 超过 4 时 ， 则 调整 表 的 大 小 (第 16 行 )。resize 方 法 首先 锁定 集合 (第 
20 行 )， 检 查 没 有 其 他 线程 正在 对 表 进 行 调整 (第 23 行 )。 然 后 ， 它 分 配 并 初始 化 一 个 容量 为 
原来 两 倍 的 新 表 (第 25 ~29 行 )， 并 将 原 表 中 的 元 素 移 到 新 的 桶 中 (第 30~34 行 )。 最 后 ， 对 
集合 解锁 (第 36 行 )。 





15 public boolean policy() { g 
16 return setSize / table. length > 4; 

17 } 

18 public void resize() { 

19 int oldCapacity = table.length; 

20 Tock. lock(); 

21 try { 

22 if (oldCapacity != table.length) { 

23 return; // someone beat us to it 

24 } 

25 int newCapacity = 2 * oldCapacity; 

26 List<T>[] oldTable = table; 

27 table = (List<T>[]) new List[newCapacity]; 
28 for (int i = 0; i < newCapacity; i++) 

29 table[i] = new ArrayList<T>(); 

30 for (List<T> bucket : oldTable) { 

31 for (T x : bucket) { 

32 table[x.hashCode() % table. length] .add (x); 
33 } 

34 } 

35 } finally { 





36 Jock.unlock{); 
} 





图 13-4 CoarseHashSet<T> 类 : policy() 方 法 和 resize() 方 法 


13.2.2 空间 分 带 哈 希 集 


和 第 9 章 的 粗 粒 度 链表 一 样 ， 上 节 中 的 粗 粒 度 哈 希 集 易 于 实现 且 很 好 理解 。 然 而 ， 这 种 哈 
希 集 却 是 一 个 顺序 瓶颈 。 方 法 的 调用 形成 了 一 次 一 个 的 顺序 效果 ， 虽 然 逻 辑 上 没有 理由 要 求 

下 面 给 出 一 种 具有 更 高 并 行 性 且 对 锁 的 争 用 较 低 的 封闭 地 址 哈 希 表 。 我 们 不 再 用 单一 的 
锁 来 同步 整个 集合 ， 而 是 将 集合 划分 为 独立 同步 的 片 。 为 此 ， 需 要 引入 锁 分 片 技术 ， 该 技术 
也 适用 于 其 他 数据 结构 。 图 13-5 是 StripedHashSet<T> 类 的 域 和 构造 函数 。 该 集合 通过 一 个 由 
Z 个 锁 组 成 的 数组 1ocks[] 和 一 个 由 N = Z 个 桶 组 成 的 数组 tab1e[] 进 行 初始 化 ， 其 中 每 个 桶 都 
是 一 个 不 同步 的 List<T>。 虽 然 这 些 数组 初始 时 具有 相同 的 容量 ， 但 当 重 新 调整 集合 时 ， 
table[] 将 会 增 大 ， 而 1ocks[] 却 不 变 。 由 于 要 不 断 地 加 倍 表 的 容量 N， 而 锁 数 组 的 大 小 保持 
不 变 ， 因 此 ， 锁 ;最终 将 会 保护 每 个 表 项 j， 这 里 j = i (mod L)。acquire(x) 方 法 和 release(x) 
方法 使 用 x 的 哈 希 码 来 决定 应 获取 或 释放 哪个 锁 。 图 13-6 表 明了 如 何 调整 StripedHashSet<T> 
的 大 小 。 

当 表 增 大 时 ， 不 改变 锁 数组 大 小 的 原因 有 以 下 两 点 : 

。 将 一 个 锁 和 一 个 表 项 相关 联 将 耗费 大 量 的 空间 ， 特 别 在 表 很 大 且 争 用 低 的 时 候 。 

。 虽 然 调整 表 的 大 小 很 简单 ， 但 调整 锁 数 组 (正在 使 用 ) 的 大 小 却 非 常 复 杂 ， 此 问题 将 在 
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13.2.3 节 中 讨论 。 





] 
public class StripedHashSet<T> extends BaseHashSet<T>{ 


1 

2 final ReentrantLock{] locks; 

3 public StripedHashSet(int capacity) { 

4 super (capacity); 

5 locks = new Lock{capacity]; 

6 for (int j = 0; j < locks.Jength; j++) { 
7 locks[j] = new ReentrantLock(); 

8 


} 








9 } 

10 public final void acquire(T x) { 

11 locks[x.hashCode() % locks.length] .lock(); 
12 } 

13 public void release(? x) { 

14 locks[x.hashCode() % locks. length] .unlock(); 
15 } 





图 13-5 StripedHashSet<T>3&, 域 、 构 造 器 、acquire( ) 方 法 和 release( ) 方 法 


表 


lwn - 


5 (mod 8) = i 

















m mao 











o 





图 13-6 调整 基于 锁 的 StripedHashSet 哈 希 表 。 当 该 表 增 大 时 对 分 片 进行 调整 ， 以 确保 每 个 锁 
覆盖 2”“ 个 表 项 。 图 中 ，N = 16, L= 8。 当 N 从 8 变 为 1 时， 内存 将 按 空间 划分 ， 从 而 
使 图 中 的 锁 = 5 可 以 覆盖 两 个 都 为 5 mod L 的 单元 


调整 StripedHashSet (图 13-7) 与 调整 CoarseHashSet 大 体 上 相同 。 其 差别 之 一 就 在 于 ， 
前 者 的 resize( ) 方 法 是 按照 升序 获取 1ock[] 中 的 锁 (第 18~20 行 )。 它 与 contains()、add() 
或 remove( ) 调 用 之 间 不 会 发 生死 锁 ， 因 为 这 些 方法 仅 获取 单一 的 锁 。 它 与 另外 一 个 resize() 
调用 之 间 也 不 会 产生 死 锁 ， 因 为 它们 不 需 持 有 任何 锁 就 可 以 开始 ， 且 按照 相同 的 顺序 来 获取 
锁 。 如 果 两 个 或 更 多 的 线程 试图 在 同一 时 刻 调 整 集合 的 大 小 将 会 怎样 呢 ? 当 一 个 线程 准备 调 
整 表 时 ， 将 会 和 CoarseHashSet<T> 一 样 记录 当 前 的 表 容 量 。 在 它 获 取 了 所 有 锁 以 后 ， 如 果 发 
现 其 他 的 某 个 线程 改变 了 表 的 容量 (第 23 行 )， 则 释放 这 些 锁 并 放弃 操作 (由 于 已 经 持 有 所 有 
的 锁 ， 有 可 能 只 是 加 倍 了 表 的 大 小 ) 。 

否则 ， 创 建 一 个 容量 为 原 表 两 倍 的 新 数组 table[] (第 25 行 )， 并 将 原 表 中 的 元 素 移 到 新 
RP (353047). Bela, PRB (第 36 行 )。 由 于 initializeFrom() 方 法 调用 了 add()， 它 可 
能 会 触发 伐 套 的 resize( ) 调 用 。 我 们 把 验证 幅 套 的 resize( ) 在 此 处 和 后 面 的 哈 希 集 实现 中 能 
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正确 工作 这 个 问题 留 作 习题 。 
16 public void resize() { 
17 int oldCapacity = table.length; 
18 for (Lock lock : locks) { 
19 Tock. lock(); 
20 } 
21 try { 
22 if (oldCapacity {= table.length) { 
23 return; // someone beat us to it 
24 } 
25 int newCapacity = 2 x oldCapacity; 
26 List<T>[] oldTable = table; 
27 table = (List<T>[]) new List[newCapacity]; 
28 for (int i = 0; i < newCapacity; i++) 
29 table[i] = new ArrayList<T>(); 
30 for (List<T> bucket : oldTable) { 
31 for (T x : bucket) { 
32 table[x.hashCode() % table.jength] .add(x) ; 
33 } 
34 } 
35 } finally { 
36 for (Lock lock : locks) { 
37 lock.unlock(); 
38 } 
39 } 
40 } 








图 13-7 StripedHashSet<T> 类 ， 为 了 调整 集合 的 大 小 ， 首 先 按 序 对 每 个 锁 进行 加 锁 ， 然 后 检 
查 此 时 没有 其 他 的 线程 在 调整 表 


总 而 言 之 ， 空 间 分 带 的 上 锁 比 单一 粗 粒度 锁具 有 更 高 的 并 发 性 ， 其 原因 在 于 将 元 素 哈 希 
到 不 同 的 锁 能 使 方法 调用 以 并 行 的 方式 执行 。add()、contain() 和 remove( ) 方 法 的 执行 需要 
预期 的 固定 时 间 ， 而 resize( ) 需 要 的 是 线性 时 间 且 是 一 种 “停止 一 切 ” 的 操作 : 增加 表 的 容 
量 时 中 止 所 有 的 并 发 方法 调用 。 


13.2.3 细 粒 度 哈 希 集 


当 表 的 大 小 增长 时 ， 如 果 要 细 化 锁 的 粒度 ， 使 得 在 一 个 分 片 里 的 单元 个 数 不 会 连续 增长 ， 
应 该 怎么 做 ? 显然 ， 如 果 要 调整 锁 数 组 的 大 小 ， 需 要 另 一 种 形式 的 同步 。 由 于 很 少 重 新 调整 ， 
所 以 我 们 的 主要 目标 就 是 设计 一 种 方法 以 允许 锁 数组 大 小 被 调整 ， 同 时 又 不 会 增加 正常 方法 
调用 的 代价 。 

图 13-8 描 述 了 RefinableHashSet<T> 类 的 域 和 构造 函数 。 为 了 加 入 更 高 级 别 的 同步 ， 引 入 
了 一 个 全 局 共享 域 owner ， 将 一 个 布尔 值 和 一 个 线程 的 引用 组 合 在 一 起 。 通 常情 况 下 ， 该 布尔 
值 为 false， 表 示 和 集 合 没 有 处 于 调整 状态 。 当 集合 被 调整 时 ， 布 尔 值 为 true， 而 与 其 相关 联 的 引 
用 则 指向 正在 执行 调整 的 线程 。 这 两 个 值 被 封装 在 AtomicMarkableReference <Thread> 中 ， 
以 使 它们 能 被 原子 地 修改 (第 9 章 编程 提示 9.8.1) 。 采 用 owner 作 为 resize() 方 法 和 其 他 add( ) 
方法 之 间 的 互 斥 标志 ， 能 使 得 在 调整 大 小 的 过 程 中 不 会 发 生 更 新 ， 而 在 更 新 的 过 程 中 不 会 出 
现 调整 。add( ) 的 每 次 调用 都 必须 读 owner 域 。 由 于 很 少 调整 大 小 ， 所 以 通常 将 owner 的 值 缓 
存 起 来 。 

每 个 方法 通过 调用 acquire(x) 对 x 的 桶 加 锁 ， 如 图 13-9 所 示 。 该 方法 一 直 在 自 旋 ， 直 到 不 


218 第 二 部 分 实 践 


再 有 其 他 线程 调整 集合 的 大 小 为 止 (第 19~21 行 )， 然 后 读 锁 数组 (第 22 行 )。 之 后 ， 获取 该 元 
素 的 锁 (第 24 行 )， 并 再 次 进行 确认 ， 此 时 ， 由 于 对 锁 的 持 有 (第 26 行 ) 能 确保 没有 其 他 线程 
在 调整 集合 ， 所 以 在 第 21~26 行 之 间 不 会 发 生 重新 调整 的 行为 。 





1 public class RefinableHashSet<T> extends BaseHashSet<T>{ 
2 AtomicMarkableReference<Thread> owner; 

3 volatile ReentrantLock[] locks; 

4 public RefinableHashSet (int capacity) { 

5 super (capacity); 

6 locks = new ReentrantLock{capacity]; 

7. for (int i = 0; i < capacity; i++) { 

8 locks[i] = new ReentrantLock(); 


10 owner = new AtomicMarkableReference<Thread>(null, false); 











图 13-8 RefinableHashSet<T>2&, 域 和 构造 函数 





| 14 public void acquire(T x) { 
15 boolean[] mark = {true}; 
16 Thread me = Thread.currentThread(); 
17 Thread who; 
18 while (true) { 
19 do { 
20 who = owner.get (mark); 
21 } while (mark[0] && who != me); 
22 ReentrantLock[] oldLocks = locks; 
23 ReentrantLock oldLock = oldLocks[x.hashCode() % oldLocks. length]; 
24 oldLock.lock(); 
25 who = owner.get (mark); 
26 if ((!mark[0] || who == me) && locks == oldLocks) { 
27 return; 
28 } else { 
29 oldLock.unlock(); 
30 } 
31 } 
32 } 
33 public void release(T x) { 
34 locks[x.hashCode() % locks. length] .unlock(); 
35 } 











图 13-9 RefinableHashSet<T>2k, acquire() 和 release() 方 法 


如 果 通 过 了 这 次 检测 ， 线 程 则 能 继续 推进 。 否 则 ， 由 于 正在 执行 的 更 新 可 能 会 使 线程 已 
获取 的 锁 过 时 ， 所 以 线程 将 释放 这 些 锁 ， 并 重新 开始 。 在 重新 执行 时 ， 若 要 再 次 获得 锁 ， 先 
要 自 旋 到 当前 的 重 调 结束 (第 19~21 行 )。 release(x) 方 法 释放 由 acquire(x) 方 法 获取 的 锁 。 

这 里 的 resize( ) 方 法 与 StripedHashSet 类 中 的 resize( ) 方 法 几乎 相同 。 它们 之 间 的 唯一 
不 同 在 第 46 行 ;方法 不 再 是 获得 1ock[] 中 的 所 有 锁 ， 而 是 通过 调用 quiesce() (图 13-10) 来 
确保 没有 其 他 的 线程 正在 处 于 add( )、 remove( ) 或 者 contains() 的 调用 中 。 图 13-11 给 出 了 
quiesce( ) 方 法 。quiesce( ) 方 法 访问 每 个 锁 ， 并 等 待 直 到 它们 被 开锁 为 止 ， 

acquire() 和 resize( ) 方 法 采用 owner 标 志 的 mark( ) 域 和 表 的 锁 数组 来 保证 互 斥 访 问 ， 
acquire( ) 首 先 获 取 mark( ) 域 的 锁 ， 然 后 读 mark( ) 域 ， 而 resize() 则 首先 设置 mark， 然 后 在 
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quiesce( ) 调 用 中 读 该 锁 。 这 种 次 序 能 确保 每 个 在 quiesce( ) 完 成 之 后 获取 锁 的 线程 将 看 到 该 
集合 正 处 于 调整 中 ， 从 而 回 退 直 到 此 调整 结束 。 同 样 ，resize() 首 先 设置 mark 域 ， 然 后 读 这 
些 锁 ， 当 add()、remove( ) 或 者 contains( ) 调 用 的 锁 被 设置 时 不 再 推进 。 











36 public void resize() { 

37 int oldCapacity = table.length; 

38 boolean[] mark = {false}; 

39 int newCapacity = 2 » oldCapacity; 

40 Thread me = Thread.currentThread(); 

41 if (owner.compareAndSet (null, me, false, true)) { 
42 try { 

43 if (table.length != oldCapacity) { // someone else resized first 
44 return; 

45 } 

46 quiesce(); 

47 List<T>[] oldTable = table; 

48 table = (List<T>[]) new List[newCapacity]; 
49 for (int i = 0; i < newCapacity; i++) 

50 table[i] = new ArrayList<T>(); 

51 locks = new ReentrantLock[newCapacity]; 

52 for (int j = 0; j < locks.length; j++) { 
53 locks[j] = new ReentrantLock(); 

54 } 

55 jnitializeFrom(oldTable); 

56 } finally { 

57 owner.set(null, false); 

58 } 

59 } 

60 } 











图 13-10 RefinableHashSet<T>2&; resize () 方 法 








总 之 ， 可 以 设计 一 种 桶 的 数目 和 锁 的 数目 protected void quiesce() { 
能 连续 调整 的 哈 希 表 。 该 算法 的 限制 之 一 就 是 ， We Gack eee oe 
在 调整 过 程 中 不 允许 多 个 线程 访问 表 中 的 元 素 。 } 
} 
13.3 无 锁 哈 希 集 图 13-11 RefinableHashSet<T>2% ; 
下 一 步 工作 就 是 让 哈 希 集 的 实现 是 无 锁 的 ， quiesce () 方 法 


并 使 重 调 大 小 是 可 增 量 的 ， 也 就 是 说 ， 每 个 add( ) 方 法 调用 仅仅 执行 重新 调整 工作 中 的 一 小 部 
分 。 这 样 一 来 ， 就 不 需要 “停止 一 切 ” 地 调整 表 的 大 小 了 。 每 个 contains()、add() 和 
remove( ) 方 法 的 执行 都 是 预期 的 固定 时 间 。 

为 了 使 可 调 大 小 的 哈 希 集 是 无 锁 的 ， 仅 仅 使 单个 桶 无 锁 是 不 够 的 ， 因 为 重 调 表 的 大 小 要 
求 原 子 地 将 旧 桶 中 的 元 素 移 到 新 桶 中 。 如 果 表 的 容量 加 倍 了 ， 就 必须 在 两 个 新 桶 间 划 分 旧 桶 
中 的 元 素 。 如 果 不 是 原子 地 完成 这 种 迁移 ， 那 么 元 素 有 可 能 暂时 丢失 或 者 重复 出 现 。 

在 没有 锁 的 情况 下 ， 必 须 使 用 类 似 于 compareAndSet( ) 的 原子 方法 进行 同步 。 然 而 ， 这 些 
方法 仅仅 对 单一 的 内 存单 元 进行 操作 ， 这 使 得 很 难 原子 地 将 结 点 从 一 个 链表 移 到 另 一 个 链表 。 


13.3.1 递归 有 序 划分 


下 面 给 出 一 种 采用 倒置 常规 哈 希 数据 结构 头 的 方法 来 实现 的 哈 希 集 : 
不 是 在 桶 间 移 动 元 素 ， 而 是 在 元 素 间 移 动 桶 。 
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更 准确 地 说 ， 类 似 于 第 9 章 的 LockFreeList 类 ， 将 所 有 的 元 素 保存 在 一 个 无 锁链 表 中 。 桶 
只 是 指向 链表 中 的 引用 。 当 链表 增长 时 ， 引 入 额外 的 桶 引用 ， 使 得 没有 对 象 离 桶 的 起 始点 大 
还 。 这 种 算法 能 确保 一 旦 一 个 元 素 被 放 入 链表 中 ， 则 决 不 会 被 删除 ， 但 是 ， 元 素 的 插入 一 定 
要 采用 递归 有 序 划 分 (recursive split-order) 算法 ， 下 面 会 简要 介绍 这 个 算法 。 

图 13-12b 描 述 了 一 种 无 锁 哈 希 集 实现 。 它 有 两 个 组 成 部 分 ， 一 个 无 锁链 表 和 一 个 指向 链 
表 的 引用 组 成 的 扩展 数组 。 这 些 引用 实质 上 是 逻辑 桶 。 哈 希 集中 的 任 一 元 素 都 可 以 通过 从 链 
表 的 头 开始 遍历 链表 而 得 到 ， 而 指向 链表 的 桶 引用 则 提供 了 访问 链表 的 快捷 方式 ， 以 便 最 小 
化 在 搜索 时 需要 遍历 的 表 结 点 的 个 数 。 问 题 的 关键 在 于 ， 当 集合 中 的 元 素 个 数 增加 时 ， 如 何 
确保 对 链表 的 桶 引用 仍然 均匀 分 布 。 桶 引用 应 该 均匀 地 分 布 ， 以 使 每 个 结 点 的 访问 都 花费 固 
定时 间 。 也 就 是 说 ， 必 须 创建 新 桶 ， 并 将 其 分 配 到 链表 中 稀疏 覆盖 的 区 域 中 。 


000 001 011 100 101 111 000 001 010 011 100 101 110 111 





图 13-12 该 图 说 明了 有 序 划分 的 递归 特性 。 a 描述 了 一 个 由 两 个 桶 组 成 的 有 序 划分 链表 。 由 桶 
组 成 的 数组 指向 一 个 链表 。 有 序 划 分 的 key 值 ( 标 于 每 个 结 点 之 上 ) 是 通过 将 元 素 
key 值 的 比特 表示 反 过 来 得 到 的 。 活跃 的 桶 数组 项 0 和 1 在 链表 中 都 有 特定 的 哨兵 结 点 
(方形 结 点 )， 其 他 结 点 (普通 结 点 ) 则 是 圆 形 的 。 元 素 4 (比特 值 的 反 序 为 “001” ) 
和 6 (比特 值 的 反 序 为 “011” ) 在 桶 0 中 ， 因 为 其 原来 key 值 的 LSB 为 “0”。 元 素 5 和 
7 (比特 值 的 反 序 分 别 为 “101” 和 “111” ) 在 桶 1 中 ， 因为 其 原来 key 值 的 LSB 为 1。 
b 描 述 了 一 旦 表 的 容量 由 2 增加 到 4， 每 个 桶 是 如 何 被 划分 的 。 两 个 新 增 的 桶 2 和 3 的 比 
特 值 反 序 恰好 完全 分 割 了 桶 0 和 1 


和 前 面 一 样 ， 哈 希 集 的 容量 永远 是 2 的 等 。 初 始 时 桶 数组 容量 为 2， 且 除了 索引 0 处 的 那 
个 桶 以 外 ， 其 他 所 有 的 桶 引用 都 为 ul1， 该 引用 指向 一 个 空 链表 。 变 量 bucketSize 用 于 表示 
这 种 桶 结构 的 可 变 容量 。 桶 数组 中 的 每 个 项 在 初次 访问 的 时 候 被 初始 化 ， 然 后 指向 链表 中 的 
Eo 

当 插入 、 删 除 或 搜索 哈 希 码 为 [的 元 素 时 ， 哈 希 集 使 用 桶 索引 上 (mod N) 。 和 前 面 的 哈 希 
集 实现 一 样 ， 也 是 通过 po1icy( ) 方 法 来 决定 何 时 将 表 的 容量 加 倍 的 。 但 这 里 是 由 修改 表 的 方 
法 来 兽 量 地 调整 大 小 ， 所 以 不 需要 显 式 的 resize( ) 方 法 。 如 果 表 容量 为 2， 桶 索引 则 是 key 的 ; 
最 低 有 效 位 (LSB) ， 也 就 是 说 ， 每 个 桶 /中 元 素 的 哈 希 码 K 满 足 E = (mod 2 ) 。 

由 于 哈 希 函数 依赖 于 表 的 容量 ， 所 以 表 容 量 改变 时 必须 慎重 处 理 。 对 于 在 表 被 改变 之 前 
搬入 的 元 素 ， 应 保证 从 先前 的 桶 和 现在 的 桶 都 可 以 访问 。 当 容量 增长 为 2+! 时 ， 桶 5 中 的 元 素 
在 两 个 桶 之 间 被 划分 : 将 那些 t = b (mod 2) 的 元 素 放 在 b 桶 中 ， 而 k =b + 2! (mod 2!) 的 
元 素 则 被 移 到 桶 b + 2' 中 。 该 算法 的 核心 思想 是 ， 保证 这 两 组 元 素 在 链表 中 是 一 个 接 一 个 地 排 
列 的 ， 这 样 ， 只 需 简 单 地 将 桶 b + 2 设置 在 第 一 组 元 素 之 后 和 第 二 组 元 素 之 前 ， 就 可 实现 对 桶 
5 的 划分 。 这 种 方式 能 保证 第 二 组 中 的 每 个 元 素 都 可 以 通过 桶 b 访 问 。 

如 图 13-12 所 描述 的 那样 ， 两 个 组 中 的 元 素 由 它们 的 第 i 个 二 进 制 数字 位 区 分 开 来 (从 最 低 
有 效 位 向 最 高 有 效 位 数 )。 数 字 位 为 0 的 元 素 属于 第 一 组 ， 数字 位 为 1 的 则 属于 第 二 组 。 下 一 次 
哈 希 表 加 倍 时 ， 将 每 个 组 再 划分 成 两 个 由 第 i+1 位 区 分 开 来 的 组 ， 以 此 类 推 。 例 如 ， 元 素 4 
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(二 进 制 表示 为 “100?) 和 6 (“110”) 有 着 相同 的 最 低 有 效 位 。 当 表 容 量 为 2 时 ， 它 们 处 于 同 
一 个 桶 中 ， 但 是 当 表 容量 变 为 2 时 ， 则 处 于 不 同 的 桶 中 ， 因 为 它们 的 第 二 位 不 同 。 

从 图 13-12 中 可 以 看 出 ， 这 种 处 理 过 程 能 使 元 素 之 间 保 持 全 序 ， 所 以 称 为 递归 有 序 划 分 。 
对 于 给 定 的 key 值 哈 希 码 ， 其 次 序 是 由 它 的 反 向 比特 值 来 决定 的 。 

概括 地 说 ， 有 序 划 分 的 哈 希 集 是 一 个 由 桶 组 成 的 数组 ， 每 个 桶 都 是 一 个 无 锁链 表 的 引用 ， 
而 链表 的 结 点 是 按照 其 哈 希 码 的 反 序 位 来 排序 的 。 桶 的 数目 是 动态 增长 的 ， 每 个 新 桶 在 初次 
访问 时 被 初始 化 。 

为 了 避免 在 删除 由 桶 引用 指向 的 结 点 时 出 现 “ 角 落 情 形 ”(corner case)， 在 每 个 桶 的 起 始 
位 置 增加 一 个 哨兵 结 点 ， 该 结 点 永远 不 会 被 删除 。 假 设 桶 的 容量 是 2”。 当 桶 b+2 第 一 次 被 访 
问 时 ， 则 创建 一 个 键 值 为 2+2 的 哨兵 结 点 。 该 结 点 通过 桶 2p+2' 的 父 桶 2 插入 到 链表 中 。 按 照 有 
序 划分 ，b+2 在 桶 b+2: 中 的 所 有 元 素 之 前 ， 因 为 这 些 元 素 必 须 以 (i+1) 个 位 结束 以 形成 值 b+2'。 
同时 ， 该 值 也 在 桶 2 的 所 有 不 属于 b+2' 的 元 素 之 后 : 它们 有 着 相同 的 LSB ， 但 它们 的 第 ;位 为 0。 
因此 , 这 个 新 的 哨兵 结 点 被 放置 在 链表 中 能 精确 地 将 新 桶 元 素 和 桶 2 中 剩余 元 素 分 隔 开 的 位 置 。 
为 了 区 分 哨兵 元 素 和 普通 元 素 ， 将 普通 元 素 的 最 高 有 效 位 (MSB) 设置 为 1， 而 让 哨兵 元 素 的 
MSB 为 0。 图 13-14 描 述 了 两 个 方法 : 为 对 象 生 成 一 个 有 序 划分 key 的 make0rdinaryKey( ) 方 法 
以 及 为 桶 引用 生成 一 个 有 序 划分 key 的 makeSentine1Kkey( ) 方 法 。 

图 13-13 描 述 了 将 一 个 新 的 key 插 入 集合 将 会 如 何 初 始 化 一 个 桶 。 有 序 划分 的 key 值 用 8 位 
字 标 于 结 点 之 上 。 例 如 ，3 的 有 序 划分 值 是 其 二 进 制 表示 的 按 位 反 序 ， 为 11000000。 方形 结 点 
是 哨兵 结 点 ， 对 应 于 那些 原始 key 值 为 0，1，3 (mod 4) 且 MSB 为 0 的 桶 。 在 开启 它们 的 MSB 
之 后 ， 普 通 (ABW) 结 点 的 有 序 划分 key 是 原先 key 值 的 按 位 反 序 。 例 如 ， 元 素 9 和 13 在 桶 
“1 (mod 4)” 中 ， 该 桶 可 以 通过 插入 一 个 新 的 结 点 而 被 递归 地 划分 为 两 个 桶 。 图 中 的 次 序 描 
述 了 在 表 的 容量 为 4， 桶 0、1 和 3 已 被 初始 化 的 情况 下 ， 加 入 一 个 哈 希 码 为 10 的 对 象 的 情形 。 
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c) d) 
图 13-13 add( ) 方 法 是 如 何 将 key 值 10 放 入 无 锁 表 的 。 和 前 面 的 图 一 样 ， 有 序 划 分 的 key 值 用 8 
位 二 进 制 字 表示 ， 并 标 于 结 点 之 上 。 例 如 ，1 的 有 序 划分 值 是 它 的 二 进 制 表示 的 按 位 
反 序 。 在 步骤 a 中 ， 桶 0、1 和 3 已 初始 化 ， 但 桶 2 还 未 初始 化 。 在 步骤 b 中 ， 哈 希 值 为 
10 的 元 素 被 插入 ， 导 致 桶 2 被 初始 化 。 插 入 一 个 新 的 有 序 划 分 key 值 为 2 的 哨兵 。 在 步 
又 c 中 ， 将 一 个 新 的 哨兵 赋予 桶 2。 最 后 ， 在 步骤 d 中 ， 将 普通 的 有 序 划 分 key 值 10 加 
入 到 桶 2 中 
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表 是 增 量 地 变 大 的 ， 也 就 是 说 ,没有 显 式 的 resize 操 作 。 每 个 桶 都 是 一 个 链表 ， 结 点 是 
根据 有 序 划分 的 哈 希 值 来 排序 的 。 前 面 已 经 提 到 ， 表 的 调整 机 制 不 依赖 于 决定 何 时 调整 大 小 
的 策略 。 为 了 使 这 个 例子 更 具体 ， 我 们 来 实现 下 面 的 策略 : 采用 一 个 共享 计数 器 ， 让 add( ) 调 
用 来 跟踪 桶 的 平均 负载 。 当 平均 负载 超过 阔 值 时 ， 就 将 表 的 容量 加 倍 。 

为 了 避免 技术 上 的 差错 ， 将 桶 数组 放 在 一 个 国定 大 小 且 容 量 很 大 的 数组 中 。 开 始 的 时 候 
仅 使 用 第 一 个 数组 项 ， 随 着 集合 的 增长 ， 逐 渐 使 用 更 多 的 数组 项 。 当 add( ) 方 法 访问 一 个 在 当 
前 表 容 量 下 应 被 初始 化 但 尚未 初始 化 的 桶 时 ， 则 初始 化 这 个 桶 。 虽 然 思 想 很 简单 ， 但 这 种 设 
计 并 不 理想 ， 因 为 固定 的 数组 大 小 限制 了 桶 的 最 终 数目 。 实 际 中 ， 最 好 是 用 多 级 树 结构 来 表 
示 桶 ， 这 将 能 覆盖 机 器 的 全 部 存储 空间 。 我 们 将 该 问题 留 作 习题 。 


13.3.2 BucketList 类 


图 13-14 描 述 了 BucketList 类 的 域 、 构 造 函 数 和 一 些 有 用 的 方法 ， 该 类 实现 了 由 有 序 划 分 
哈 希 集 所 使 用 的 无 锁链 表 。 尽 管 该 类 本 质 上 与 LockFreeList 类 一 样 ， 但 仍 存 在 两 个 关键 的 不 
同 点 。 第 一 点 不 同 是 BucketList 类 中 的 元 素 是 按照 递归 划分 次 序 排序 的 ， 而 不 是 按照 哈 希 值 
简单 地 排序 。make0rdinaryKey( ) 和 makeSentinelKey() 方 法 (第 10 行 和 第 14 行 ) 说 明 如 何 计 
算 这 些 有 序 划分 的 key 值 。( 为 了 确保 反 序 key 值 为 正 数 ， 只 使 用 哈 希 值 的 低 3 位 。) 图 13-15 描 
述 了 如 何 使 用 有 序 划 分 key 来 修改 contains() 方 法 。( 与 LockFreeList 类 一 样 ， 如 果 x 存 在 ， 
find(x) 方 法 则 返回 含有 结 点 x 的 记录 以 及 它 的 直接 前 驱 结 点 和 后 继 结 点 。) 





1 public class BucketList<T> implements Set<T> { 

2 static final int HI_MASK = 0x80000000; 

3 static final int MASK = OxOOFFFFFF; 

4 Node head; 

5 public BucketList() { 

6 head = new Node(0); 

7 head.next = 

8 new AtomicMarkableReference<Node> (new Node(Integer.MAX VALUE), false); 











9 } 
10 public int makeOrdinaryKey(T x) { 
Ji int code = x.hashCode() & MASK; // take 3 lowest bytes 
12 return reverse(code | HI_MASK); 
13 } 
14 private static int makeSentinelKey(int key) { 
15 return reverse(key & MASK); 
16 } 
17 x 
18 } 
a 
图 13-14 BucketList<T>3&, 域 、 构 造 函 数 和 方法 
第 二 点 不 同 就 是 ，LockFreeList 类 只 使 用 两 个 
哨兵 ,分 别处 于 链表 的 两 端 ， 而 在 BucketList<T> public boolean contains(T x) { 
BLSN p syle tr i akg Api E int key = makeOrdinaryKey(x); 
类 中 ， 每 当 表 的 大 小 被 调整 时 ， 就 将 一 4 哨兵 放 Window window = find(head, keys 
在 新 桶 的 开始 位 置 。 这 要 求 能 在 链表 的 中 间 插 入 Node curr = window.curr; 
哨兵 ， 并 能 从 这 些 哨兵 开始 遍历 链表 。 We eres 





BucketList<T> 类 提供 了 一 个 getSent-ine1(0c) 方 
法 〈 图 13-16) ， 该 方法 以 桶 引用 作为 参数 ， 查 找 ” 图 13-15 BucketList<T> 类 : contains( ) 方 法 
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相关 的 哨兵 (如 果 不 存在 则 插入 )， 并 返回 从 这 个 哨兵 开始 的 BucketList<T> 类 的 尾 。 











public BucketList<T> getSentinel (int index) 
int key = makeSentinelKey(index); 
boolean splice; 
while (true) { 
Window window = find(head, key); 
Node pred = window.pred; 
Node curr = window.curr; 
if (curr.key == key) { 
return new BucketList<T>(curr); 
} else { 


Node node = new Node(key); 


node.next.set (pred.next.getReference(), 


splice = pred.next.compareAndSet (curr, 
if (splice) 

return new BucketList<T>(node); 
else 

continue; 


4 





false); 
node, false, false); 








图 13-16 BucketList<T>3€; getSentine1() 方 法 


13.3.3 LockFreeHashSet<T> 类 


图 13-17 描 述 了 LockFreeHashSet<T> 类 的 域 和 构造 函数 。 该 集合 具有 以 下 可 变 域 : 
bucket 是 一 个 由 指向 元 素 链表 的 LockFreeHashSet<T> 所 组 成 的 数组 ，bucketSize 是 一 个 原子 
的 整 型 数 ， 用 来 记录 当前 有 多 少 个 bucket 数 组 正在 被 使 用 ，setSize 是 一 个 原子 的 整 型 数 ， 记 
录 集 合 中 有 多 少 个 对 象 ， 以 便 决 定 何 时 调整 集合 的 大 小 。 


Wik (mod N)， 其中，N 是 当前 表 的 大 小 ， 并 在 必要 时 初始 化 该 桶 (第 15 行 )。 然 后 ， 调 用 
BucketList<T> 的 add(x) 方 法 。 如 果 x 不 存在 (第 18 行 )， 则 增加 setSize， 并 检查 是 否 要 增加 








1 public class LockFreeHashSet<T> { 

2 protected BucketList<T>[] bucket; 

3 protected AtomicInteger bucketSize; 

4 protected AtomicInteger setSize; 

5 public LockFreeHashSet(int capacity) { 
6 bucket = 

7 

8 


bucket[0] = new BucketList<T>(); 
bucketSize = new AtomicInteger(2); 
9 setSize = new AtomicInteger(0); 
10 
11 
12 } 


(BucketList<T>[]) new BucketList [capacity]; 





i 





图 13-17 LockFreeHashSet<T>2&, 域 和 构造 函数 


图 13-18 描 述 了 LockFreeHashSet<T> 类 的 add( ) 方 法 。 如 果 x 的 哈 希 码 为 k， add(x) 则 存 取 


bucketSize 一 一 活跃 桶 的 数目 。contains(x) 和 remove(x) 方 法 的 工作 方式 基本 相同 。 
图 13-19 描 述 了 initialBucket() 方 法 ， 共 任务 就 是 在 一 个 特定 的 索引 处 初始 化 bucket 数 


组 项 ， 使 该 数组 项 指向 一 个 新 的 哨兵 结 点 。 


首先 创建 哨兵 结 点 并 将 其 加 入 到 现 有 的 父 桶 中 ， 
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然后 ， 将 一 个 指向 哨兵 的 引用 赋予 该 数组 项 。 如 果 父 桶 未 被 初始 化 (第 31 行 )， 则 对 该 父 桶 弟 
归 地 调用 initialBucket()。 为 了 控制 递归 ， 我 们 保持 父 素 引 小 于 新 桶 的 索引 这 一 点 不 变 。 
另外 ， 要 慎重 地 选取 父 素 引 尽 可 能 地 最 接近 新 桶 的 素 引 ， 但 要 小 于 新 桶 的 索引 。 我 们 通过 清 
除 桶 索引 的 最 高 非 零 有 效 位 来 计算 该 索引 (第 39 行 )。 








13 public boolean add(T x) { 

14 int myBucket = BucketList.hashCode(x) % bucketSize.get(}; 
15 BucketList<T> b = getBucketList (myBucket) ; 

16 if (!b.add(x)) 

17 return false; 

18 int setSizeNow = setSize.getAndIncrement(); 

19 int bucketSizeNow = bucketSize.get(); 

20 if (setSizeNow / bucketSizeNow > THRESHOLD) 

21 bucketSize.compareAndSet (bucketSizeNow, 2 x bucketSizeNow) ; 
22 return true; 

23 } 








图 13-18 LockFreeHashSet<T>2k; add() 方 法 





24 private BucketList<T> getBucketList(int myBucket) { | 
25 if (bucket[myBucket] == null) 

26 initial izeBucket (myBucket) ; 

27 return bucket [myBucket] ; 

28 } 

29 private void initializeBucket(int myBucket) { 
30 int parent = getParent (myBucket); 

31 if (bucket[parent] == null) 

32 initializeBucket (parent); 

33 BucketList<T> b = bucket[parent] .getSentinel (myBucket) ; 
34 if (b != null) 

35 bucket [myBucket] = b; 

36 } 

37 private int getParent (int myBucket) { 

38 int parent = bucketSize.get(); 

39 do { 

40 parent = parent >> 1; 

41 } while (parent > myBucket); 

42 parent = myBucket - parent; 

43 return parent; 

44} 











图 13-19 LockFreeHashSet<T> 类 : 如 果 一 个 桶 未 被 初始 化 ， 则 通过 加 入 一 个 新 哨兵 的 办 法 进 
行 初 始 化 。 对 一 个 桶 的 初始 化 可 能 要 初始 化 它 的 父 桶 

add( )、remove() 和 contains( ) 方 法 需要 预期 的 常数 操作 步 来 找到 一 个 key (或 者 决定 该 
key 不 存在 )。 为 了 在 一 个 bucketSize 为 N 的 表 中 初始 化 一 个 桶 ， initialBucket( ) 方 法 可 能 
递归 地 初始 化 ( 即 划 分 ) OUogN) 个 父 桶 ， 从 而 允许 插入 一 个 新 桶 。 图 13-20 是 一 个 采用 这 种 
递归 初始 化 方式 的 示例 。 在 a 中 ， 表 有 4 个 桶 ， 只 有 桶 0 被 初始 化 。 在 b 中 ， 插入 key 值 为 7 的 元 
素 。 现 在 要 求 初始 化 桶 3， 进 而 导致 递归 地 初始 化 桶 1。 在 c 中 ， 桶 1 被 初始 化 。 最 后 ， 在 d 中 ， 
桶 3 被 初始 化 。 尽 管 在 这 种 情形 下 总 的 复杂 度 是 对 数 级 而 不 是 常数 ， 但 可 以 看 出 ， 任意 这 种 划 

15] 分 的 递归 序列 的 期 望 长 度 为 常数 ， 从 而 对 所 有 哈 希 集 操作 的 总 预期 复杂 度 为 常数 。 
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C) d) 


图 13-20 无 锁 哈 希 表 桶 的 递归 初始 化 。 在 a 中 ， 表 中 有 4 个 桶 ， 只 有 桶 0 被 初始 化 。 在 b 中 ， 准 
备 插入 key 值 为 7 的 元 素 。 现 在 要 求 初始 化 桶 3， 进 而 导致 递归 地 初始 化 桶 1。 在 c 中 ， 
对 桶 1 的 初始 化 通过 先 向 链表 中 加 入 哨兵 1， 然 后 设置 桶 指向 该 哨兵 来 完成 。 然 后 ， 在 
d 中 ， 以 同样 的 方式 初始 化 桶 3， 最 后 7 被 加 入 到 链表 中 。 在 最 坏 情 况 下 ， 插 入 一 个 元 
素 可 能 要 递归 地 初始 化 表 容量 对 数 的 桶 ， 但 可 以 看 出 ， 这 种 递归 序列 的 长 度 为 常数 


13.4 开放 地 址 哈 希 集 


下 面 转 而 研究 并 发 开放 哈 希 算法 。 在 开放 哈 希 结构 中 ， 每 个 表 项 为 一 个 元 素 而 不 是 一 个 
集合 ， 与 封闭 哈 希 相 比 ， 该 结构 似乎 更 难 并 发 。 我 们 的 并 发 算法 是 基于 一 种 称 为 Cuckoo ( 布 
谷 ) 哈 希 的 顺序 算法 实现 的 。 


13.4.1 Cuckoo 哈 希 


Cuckoo 哈 希 是 一 种 顺序 哈 希 算法 ， 其 中 ， 最 近 加 入 的 元 素 将 取代 先前 在 同一 位 置 的 元 
素 98。 简 单 地 说 ， 表 是 一 个 由 元 素 组 成 的 有 个 表 项 的 数组 。 对 于 一 个 大 小 为 N = 2k 的 哈 希 集 ， 
我 们 使 用 一 个 2 表 项 的 数组 table[] 和 两 个 独立 的 哈 希 函数 

hy, h; : KeyRange > 0,.…,k—1 


(在 代码 中 表示 为 hash0() 和 hashl()) 将 可 能 的 key 值 集合 映射 到 数组 项 中 。 为 了 测试 x 是 否 在 
集合 中 ，contains(x) 将 检查 table[0][ho(x)] 或 table[1][h1(x)] 是 否 等 于 x。 同 样 ，remove(x) 将 
检查 x 是 否 在 tab1le[0][ho(x)] 或 者 table[1][h1(x)] 中 ， 如 果 查 找到 x， 则 删除 它 。 

add(x) 方 法 (图 13-21) 十 分 有 趣 。 它 能 成 功 地 “ 踢 出 ”冲突 元 素 ， 直 到 每 个 key 都 有 一 个 
槽 为 止 。 为 了 加 入 x， 该 方法 将 x 和 table[0][ho(x)] 的 当前 值 y 相 交换 (第 6 行 )。 如 果 原 来 的 y 值 为 
null， 则 该 过 程 结束 (第 7 行 )。 否 则 ， 就 用 同样 的 方法 将 table[1][h1(y)] 的 当前 值 作为 最 近 “ 无 
H” Woy (第 8 行 )。 和 前 面 一 样 ， 如 果 原 先 的 值 为 nul1， 那 么 该 过 程 结 束 。 否 则 ， 该 方法 将 继续 
交换 表 项 (交互 的 表 ) 直到 找到 一 个 空闲 位 置 为 止 。 图 13-22 给 出 了 这 种 置换 序列 的 一 个 示例 。 


”布谷 是 一 种 在 北美 和 欧洲 可 见 的 鸟 ( 不 是 时 钟 )。 它 们 大 多 是 巢穴 入 侵 者 : 将 自己 的 蛋 产 在 其 他 鸟 的 时 穴 
中 。 布 谷 的 幼 锥 孵化 得 很 早 ， 它 们 会 很 快 将 其 他 的 蛋 推 到 巢穴 之 外 。 

日 ”将 表 划 分 为 两 个 数组 有 助 于 体现 并 发 算法 。 对 于 相同 数目 的 哈 希 项 ， 所 使 用 的 有 序 的 Cuckoo 哈 希 算法 仅 有 
一 个 大 小 为 2k 的 数组 。 
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1 public boolean add(T x) { 

2 if (contains(x)) { 

3 return false; 

4 } 

5 for (int i = 0; i < LIMIT; i++) { 

6 if ((x = swap(0, hashO(x), x)) == null) { 

7 return true; 

8 } else if ((x = swap(1, hashl(x), x)) == null) { 








9 return true; 
10 

11 } 

12 resize(); 

13 add(x); 
fea! 





图 13-21 顺序 Cuckoo 哈 希 : add( ) 方 法 


我 们 有 可 能 找 不 到 空闲 的 位 置 ， 因 为 表 是 满 的 ， 或 者 由 于 置换 序列 构成 了 一 个 循环 。 因 此 ， 
需要 制定 一 个 成 功 置换 的 上 限 (第 5 行 )。 

















当 超过 这 个 限度 时 ， 重 新 调整 哈 希 表 的 nm-xmammaa o EEN, parodo eosa 
大 小 ， 选 用 新 的 哈 希 函数 (第 12 行 )， NO : 
重新 开始 (第 13 行 )。 fo] \> oE 

顺序 Cuckoo 哈 希 的 吸引 人 之 处 就 EY Zl; æ 
在 于 其 简单 性 。 该 实现 提供 了 常数 时 间 i 
的 contains() 和 remove() 方 法 ， 可 以 
证 明 ， 随 着 时 间 的 推移 ， 由 每 个 add() ”图 13-22 当 一 个 key 值 为 14 的 元 素 发 现 Tab1e[0][h0(14)] 
调用 所 导致 的 置换 的 平均 数目 将 是 一 个 和 Tab1e[1][h.(14)] 这 两 个 单元 已 被 3 和 25 占 用 
常数 。 实 验 结果 表明 ， 顺 序 Cuckoo 哈 时 ， 开 始 一 个 置换 序列 ， 当 键 值 为 39 的 元 素 成 
希 在 实际 应 用 中 具有 良好 的 效果 。 功 地 放 入 Tab1e[1][h1(39)] 时 ， 该 序列 结束 


13.4.2 并 发 Cuckoo 哈 希 


证 顺序 Cuckoo 哈 希 算法 并 发 执行 的 主要 问题 在 于 ， add( ) 方 法 需要 执行 一 个 较 长 的 交换 序 
列 。 为 了 解决 这 一 问题 ， 下 面 定义 另 一 种 Cuckoo 哈 希 算 法 ， PhasedCuckooHashSet<T> 类 。 每 
个 方法 调用 被 分 解 为 一 系列 阶段 ， 每 个 阶段 添加 、 移 除 或 者 替换 一 个 元 素 x。 

我 们 不 再 将 集合 组 织 成 由 元 素 组 成 的 二 维 表 ， 而 是 使 用 由 测试 集 组 成 的 二 维 表 ， 其 中 ， 
测试 集 是 一 个 由 具有 相同 哈 希 码 的 元 素 所 组 成 的 常数 大 小 的 集合 。 每 个 测试 集 最 多 有 
PROBE_SIZE 个 元 素 ， 算 法 则 试图 保证 当 集合 处 于 静态 ( 即 没 有 方法 调用 在 执行 ) 时 ， 每 个 测 
试 集 的 元 素 不 超过 THRESHOLD < PROBE_SIZE 个 。 图 13-24 为 PhasedCuckooHashSet 数 据 结构 的 
一 个 示例 ， 其 中 ，PROBE_SIZE 为 4， THRESHOLD 为 2。 当 方法 调用 在 进行 时 ， 一 个 测试 集 有 可 
能 暂时 具有 多 于 THRESHOLD 但 决 不 会 大 于 PROBE_SIZE 个 元 素 。 (本 例 中 ， 将 每 个 测试 集 作为 一 
个 固定 大 小 的 List<T> 来 实现 ,) 图 13-23 为 PhasedCuckooHashSet<T> 的 域 和 构造 函数 。 

为 了 推迟 关于 同步 的 讨论 ，PhasedCuckooHashSet<T> 类 被 定义 为 抽象 类 ， 也 就 是 说 ， 它 
没有 实现 它 所 定义 的 方法 。 PhasedCuckooHashSet<T> 类 具有 与 BaseHashSet<T> 类 相同 的 抽象 
方法 : acquire(x) 方 法 获取 操作 元 素 * 所 需 的 全 部 锁 ， release(x) 释 放 这 些 锁 ，resize( ) 则 重 
新 调整 集合 的 大 小 。( 和 前 面 一 样 ， 要 求 acquire(x) 是 可 重 入 的 。) 

概括 地 说 ，PhasedCuckooHashSet<T> 的 工作 过 程 如 下 ， 首先 对 两 个 表 中 相关 联 的 测试 集 
上 锁 ， 然 后 添加 和 删除 元 素 。 
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1 public abstract class PhasedCuckooHashSet<T> { 

2 volatile int capacity; 

3 volatile List<T>[][] table; 

4 public PhasedCuckooHashSet (int size) { 

5 capacity = size; 

6 table = (List<T>[][]) new java.util.ArrayList[2] [capacity]; 

7 for (int i = 0; i < 2; i++) { 

8 for (int j = 0; j < capacity; j++) { 

9 table[i] [j] = new ArrayList<T>(PROBE_SIZE); 
} 











图 13-23 PhasedCuckooHashSet<T>2k: 域 和 构造 图 数 
table [1] table [0] table [1] table[ 0} 
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图 13-24 PhasedCuckooHashSet<T>2#e: add() 和 relocate() 方 法 。 该 图 描述 了 由 8 个 大 小 为 4 
的 测试 集 组 成 的 数组 段 ， 其 中 国 值 为 2。 图 中 显示 的 是 Table[0]0] 的 测试 集 4 和 5， 以 
及 Tab1e[1][] 的 测试 集 1 和 2。 在 a 中 ，key 值 为 13 的 元 素 发 现 Table[0][4] 和 Tab1e[1][2] 
超出 了 赋值 ， 于 是 将 该 元 素 加 入 到 测试 集 Tab1e[1][2]。 另 一 方面 ，key 值 为 14 的 元 素 
发 现 它 的 两 个 测试 集 都 超出 了 闵 值 ， 于 是 将 它 的 元 素 加 入 测试 集 Table[0][5]， 并且 
产生 该 元 素 需 要 重新 分 配 的 信号 。 在 b 中 ， 方 法 尝试 重新 分 配 key 值 为 23 的 元 素 ， 也 
就 是 Table[0][5] 中 最 老 的 元 素 。 由 于 Tab1e[l][1] 未 超出 阔 值 ， 所 以 该 元 素 被 成 功 地 
重新 分 配 。 如 果 Tab1le[l][1] 超 出 闪 值 ， 算 法 将 试图 重新 分 配 Tab1e[1][] 中 的 元 素 12。 
如 果 Tab1le[1][1] 的 测试 集 大 小 限制 为 4 个 元 素 ， 那 么 它 将 试图 重新 分 配 元 素 5， 也 就 
是 Table[0][5] 中 下 一 个 最 老 的 元 素 


和 在 顺序 算法 中 一 样 ， 若 要 删除 一 个 元 素 ， 检 查 该 元 素 是 否 在 一 个 测试 集中 ， 如 果 在 ， 
则 删除 。 车 要 增加 一 个 元 素 ， 则 将 该 元 素 增 加 到 一 个 测试 集中 。 一 个 元 素 的 测试 集 就 如 同 临 
时 的 溢出 缓冲 区 ， 为 向 表 中 增加 元 素 时 可 能 出 现 的 连续 置换 的 长 序列 服务 。 在 顺序 算法 中 ， 
THRESHOLD 值 本 质 上 是 测试 集 的 大 小 。 如 果 测 试 集中 已 经 有 这 么 多 个 元 素 ， 该 元 素 还 是 会 被 添 
加 到 PROBE_SIZE-THRESHOLD 的 一 个 溢出 槽 中 。 随 后 ， 算 法 尝试 从 测试 集中 重新 分 配 另 一 个 元 
素 。 可 以 采用 不 同 的 策略 来 选择 哪 一 个 元 素 将 被 重新 分 配 。 此 处 ， 首 先是 移出 最 老 的 元 素 ， 
直到 调试 集 在 交 值 限度 之 内 为 止 。 和 顺序 Cuckoo 哈 希 算法 一 样 ， 一 次 重 分 配 可 能 触发 另 一 个 ， 
以 此 类 推 。 图 13-24 为 PhasedCuckooHashSet <T> 类 的 一 次 执行 示例 。 

图 13-25 为 PhasedCuckooHashSet<T> 类 的 remove(x) 方 法 。 它 调用 抽象 的 acquire(x) 方 法 
以 获取 必要 的 锁 ， 然 后 进入 try 块 ， 其 finally 语 句 块 则 调用 release(x)。 在 try 语 句 块 中 ，, 方 
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法 简单 地 检查 x 是 否 在 Table[0][ho(x)] 或 者 Table[1][h,(x)] 中 。 如 果 是 ， 它 删除 x 并 返回 true， 否 
则 返回 falise。contains(x) 方 法 的 执行 采用 类 似 的 方式 。 








[ 15 public boolean remove(T x) { 
16 acquire(x); 
17 try { 
18 List<T> set0 = table[0] [hash0(x) % capacity]; 
19 if (setO.contains(x)) { 
20 set0.remove(x); 
21 return true; 
22 } else { 
23 List<T> setl = table[1][hashl{x) % capacity]; 
24 if (setl.contains(x)) { 
25 setl. remove (x); 
26 return true; 
27 } 
28 } 
29 return false; 
30 } finally { 
31 release(x); 
32 } 
33 } 
L | 








图 13-25 PhasedCuckooHashSet<T>k; remove( ) 方 法 


图 13-26 描 述 了 add(x) 方 法 。 和 remove( ) 方 法 一 样 ， 它 调用 acquire(x) 以 获取 必要 的 锁 ， 





| 34 public boolean add(T x) { 
35 T y= null; 
36 acquire(x); 
37 int hO = hashO(x) % capacity, hl = hashl(x) % capacity; 
38 int i = -1, h = -1; 
39 boolean mustResize = false; 
40 try { 
41 if (present(x)) return false; 
42 List<T> set0 = table[0] [h0]; 
43 List<T> setl = table[1][h1]; 
44 if (setO0.size() < THRESHOLD) { 
45 setO.add(x); return true; 
46 } else if (setl.size() < THRESHOLD) { 
47 setl.add{x); return true; 
48 } else if (setO.size() < PROBE SIZE) { 
49 set0.add(x); i = 0; h = h0; 
50 } else if (setl.size() < PROBE SIZE) { 
51 setl.add(x); i = 1; h = hl; 
52 } else { 
53 mustResize = true; 
54 } 
55 } finally { 
56 release(x); 
57 } 
58 if (mustResize) { 
59 resize(); add(x); 
60 } else if (!relocate(i, h)) { 
61 resize(); 
62 } 
63 return true; // x must have been present 
64 } 











图 13-26 PhasedCuckooHashSet<T>€; add( ) 方 法 
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然后 进入 一 个 try 语 句 块 ， 其 final1y 语 句 块 调用 releaseC0。 如 果 该 元 素 已 经 存在 (第 41 行 )， 
则 返回 .名 ise。 如 果 元 素 的 任 一 测试 集 都 在 国 值 限度 之 内 (第 44 行 和 第 46 行 )， 则 增加 元 素 并 返 
回 。 否 则 ， 如 果 有 一 个 元 素 的 测试 集 超出 了 贱 值 但 还 没有 满 (第 48 行 和 第 50 行 )， 则 增加 该 元 
素 并 做 上 记号 以 便 稍 后 重新 平衡 测试 集 。 如 果 两 个 集合 都 满 了 ， 则 做 上 记号 以 重新 调整 整个 
集合 的 大 小 (第 53 行 )。 然 后 ， 释 放 x 上 的 锁 (第 56 行 )。 

如 果 元 素 x 的 两 个 测试 集 都 是 满 的 从 而 使 方法 不 能 增加 x*， 则 重新 调整 哈 希 集 的 大 小 ， 然 
后 再 次 进行 尝试 〈 第 58 行 )。 如 果 测 试 集 的 第 zx 行 第 c 列 超出 了 阔 值 ， 则 调用 relocate(r, c) ( 稍 
后 将 详细 介绍 )， 以 重新 平衡 测试 集 的 大 小 。 如 果 这 个 调用 返回 false， 说明 无 法 再 度 平衡 测试 
集 ， 则 使 用 add( ) 来 调整 表 的 大 小 。 

relocate( ) 方 法 如 图 13-27 所 示 。 它 使 得 测试 集 的 行 、 列 坐标 看 起 来 具有 多 于 THRESHOLD 
个 元 素 ， 并 尝试 通过 将 该 测试 集中 的 元 素 移 到 可 选择 的 测试 集中 来 将 其 大 小 减 小 到 阔 值 
2 Fe 








65 protected boolean relocate(int i, int hi) { 





66 int hj = 0; 

67 int j = 1 - i; 

68 for (int round = 0; round < LIMIT; round++) { 
69 List<T> iSet = table[i] [hi]; 

70 T y = iSet.get(0); 

71 switch (i) { 

72 case 0: hj = hashi(y) % capacity; break; 
73 case 1: hj = hashO(y) % capacity; break; 
74 } 

75 acquire(y); 

76 List<T> jSet = table[j] [hj]; 

77 try { 

78 if (iSet.remove(y)) { 

79 if (jSet.size() < THRESHOLD) { 

80 jSet.add(y); 

81 return true; 

82 } else if (jSet.size() < PROBE_SIZE) { 
83 jSet.add(y) ; 

84 i= l-i; 

85 hi = hj; 

86 | = i=j; 

87 } else { 

88 iSet.add(y); 

89 return false; 

90 } 

91 } else if (iSet.size() >= THRESHOLD) { 
92 continue; 

93 } else { 

94 return true; 

95 } 

96 } finally { 

97 release(y); 

98 } 

99 } 
100 return false; 


101 } 





图 13-27 PhasedCuckooHashSet<T>2; relocate( ) 方 法 


该 方法 在 放弃 之 前 要 进行 固定 次 数 (LIMIT) 的 尝试 。 在 每 一 次 循环 中 ， 都 保持 以 下 不 变 
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式 : iSet 是 要 尝试 着 减 小 的 测试 集 ，y 是 i1Set 中 最 老 的 元 素 ，jSet 是 可 能 包含 y 的 另 一 个 测试 
集 。 该 循环 识别 y (第 70 行 )， 它 对 y 可 能 进入 的 两 个 测试 集 加 锁 (第 75 行 )， 尝 试 着 从 这 些 测 
试 集中 删除 y (第 78 行 )。 如 果 成 功 (在 第 70 行 和 第 78 行 之 间 ， 另 一 个 线程 有 可 能 已 经 删除 y)， 
则 准备 将 y 加 入 到 jSet 中 。 如 果 jSet 在 阀 值 限度 之 内 (第 79 行 )， 则 将 y 增 加 到 jSet 中 并 返回 
true (不 必 调 整 大 小 )。 如 果 jSet 超 出 阀 值 但 是 没有 满 (第 82 行 )， 则 尝试 着 通过 交换 iSet 和 
jSet 来 减 小 jSet (第 82~86 行 )， 并 继续 这 个 循环 。 如 果 jSet 是 满 的 (第 87 行 )， 就 将 y 放 回 至 
iset 中 ， 并 返回 false (触发 一 次 重新 调整 大 小 的 过 程 )。 否 则 ， 则 尝试 通过 交换 iSet 和 jSet 
来 减 小 jSet (第 82~86 行 )。 如 果 在 第 78 行 无 法 成 功 地 删除 y， 则 重新 检查 iSet 的 大 小 。 如 果 
仍然 超出 国 值 〈 第 91 行 )， 则 继续 这 个 循环 ， 并 尝试 再 次 删除 一 个 元 素 。 否 则 ，iSet 是 小 于 阔 
值 的 ， 将 会 返回 true (不 必 调 整 大 小 ) 。 图 13-24 为 PhasedCuckooHashSet<T> 的 一 次 执行 示例 ， 
其 中 ，key 值 14 引 起 测试 集 tab1le[0][5] 中 最 老 的 元 素 23 的 一 次 重新 分 配 。 


13.4.3 空间 分 带 的 并 发 Cuckoo 哈 希 


首先 来 考虑 一 种 采用 锁 分 片 技术 (第 13 章 13.2.2 节 ) 的 并 发 Cuckoo 哈 希 集 实现 。 
StripedCuckooHashSet 类 扩展 了 PhasedCuckooHashSet 类 ， 提 供 一 个 国定 的 2 x LATA HA BA 
组 。 一 般 而 言 ，1ock[][ 刀 保护 table[ 站 [如 ， 其 中 上 (mod Z) =j。 图 13-28 为 StripedCuckooHashSet 
类 的 域 和 构造 函数 。 该 构造 函数 调用 PhasedCuckooHashSet<T> 构 造 函 数 (第 4 行 )， 然 后 初始 
化 锁 数组 。 











1 public class StripedCuckooHashSet<T> extends PhasedCuckooHashSet<T>{ 
2 final ReentrantLock[][] lock; 

3 public StripedCuckooHashSet (int capacity) { 
4 super (capacity); 

5 lock = new ReentrantLock([2] [capacity]; 

6 for (int i = 0; i < 2; i++) { 

7 for (int j = 0; j < capacity; j++) { 

8 Jock[i] [j] = new ReentrantLock(); 

9 

10 } 

11 } 

12 

13 } 











113-28 StripedCuckooHashSet2k, 域 和 构造 函数 


StripedCuckooHashSet 类 的 acquire(x) 方 法 (图 13-29) 按照 这 种 次 序 对 1ock[0][ho(x)] 和 
lock[1][h.(x)] 上 锁 ， 从 而 避免 死 锁 。release(x) 方 法 释放 这 些 锁 。 





— 
14 public final void acquire(T x) { 
15 1ock[0] {hash0(x) % lock{0].length].lock(); 
16 lock[1] [hashl(x) % lock{1].length] .lock(); 
17 } 
18 public final void release(T x) { 
19 lock[0] [hashO(x) % lock[0]. length] .unlock(); 
20 lock[1] [hashl(x) % lock[1].length] .unlock(); 
21 } 








图 13-29 StripedCuckooHashSet#; acquire() 和 release() 方 法 
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StripedCuckooHashSet 中 的 resize() 方 法 (图 13-30) 和 PhasedCuckooHashSet 中 的 
resize ) 方 法 的 唯一 区 别 就 是 ， 后 者 要 求 按 升序 对 1ock[0] 上 锁 (第 24 行 )。 以 这 种 次 序 上 锁 
能 确保 在 add( )、remove( ) 或 者 contains( ) 调 用 中 间 没 有 别 的 线程 ， 从 而 避免 与 其 他 并 发 的 
resize() 调 用 产生 死 锁 。 





22 public void resize() { ‘| 
23 int oldCapacity = capacity; 

24 for (Lock aLock : lock[0]) { 

25 aLock.lock(); 

26 } 

27 try { 

28 if (capacity != oldCapacity) { 

29 return; 

30 } 

31 List<T>[][] oldTable = table; 

32 capacity = 2 * capacity; 

33 table = (List<T>[] [] ) new List[2] [capacity]; 
34 for (List<T>[] row : table) { 

35 for (int i = 0; i < row.length; i++) { 
36 row[i] = new ArrayList<T>(PROBE_SIZE); 
37 } 

38 } 

39 for (List<T>[] row : oldTable) { 

40 for (List<T> set : row) { 

41 for (T z : set) { 

42 add(z); 

43 } 

44 } 

45 } 

46 } finally { 

47 for (Lock aLock : lock[0]) { 

48 aLock.unlock()}; 

49 } 

50 } 

51 } 











图 13-30 StripedCuckooHashSet 类 : resize() 方 法 


13.4.4 细 粒 度 的 并 发 Cuckoo 哈 希 集 


同样 可 以 使 用 第 13 章 13.2.3 节 中 的 方法 来 调整 锁 数 组 的 大 小 。 本 小 节 介 绍 Refinab1e- 
CuckooHashSet% (图 13-31)。 如 同 RefinableHashSet 类 一 样 ， 需 引 入 一 个 AtomicMarkab1e- 
Reference<Thread> 类 型 的 owner 域 ， 它 将 一 个 布尔 值 和 一 个 线程 的 引用 组 合 在 一 起 。 如 果 布 
尔 值 为 true， 则 集合 正在 调整 中 ， 而 引用 则 指向 正在 负责 调整 大 小 的 线程 。 

每 个 阶段 通过 调用 acquire(x) 来 锁定 x 的 桶 ， 如 图 13-32 所 示 。 首 先 读 锁 数组 (第 24 行 )， 
然后 自 旋 直 到 没有 其 他 线程 在 调整 集合 大 小 (第 21 ~23 行 )。 接 着 获取 元 素 的 两 个 锁 (第 27 行 
和 第 28 行 ), 并 检查 该 锁 数组 是 否 未 被 改变 (第 30 行 )。 如 果 锁 数组 在 第 24~30 行 之 间 未 被 改变 ， 
那么 该 线程 已 获得 了 它 继续 执行 所 需 的 锁 。 否 则 ， 它 所 获得 的 锁 就 是 过 时 的 ， 必 须 释放 它们 ， 
并 重新 开始 。release(x) 方 法 释放 由 acquire(x) 方 法 获取 的 锁 。 
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1 public class RefinableCuckooHashSet<T> extends PhasedCuckooHashSet<T>{ 
2 AtomicMarkableReference<Thread> owner; 

3 volatile ReentrantLock[] [] locks; 

4 public RefinableCuckooHashSet (int capacity) { 

5 super (capacity); 

6 locks = new ReentrantLock[2] [capacity]; 

7 for (int i = 0; i < 2; i++) { 

8 for (int j = 0; j < capacity; j++) { 

9 locks[i] [j] = new ReentrantLock(); 
10 } 
11 } 
12 owner = new AtomicMarkableReference<Thread>(null, false); 
13 } 
14 š 
15 } 








图 13-31 RefinableCuckooHashSet<T>, 域 和 构造 图 数 


public void acquire(T x) { 
boolean[] mark = {true}; 
Thread me = Thread.currentThread(); 
Thread who; 
while (true) { 
do { // wait until not resizing 
who = owner.get (mark); 
} while (mark[0] && who != me); 
ReentrantLock{][] oldLocks = locks; 
ReentrantLock oldLockO = oldLocks [0] [hash0(x) % oldLocks[0].length]; 
ReentrantLock oldLockl = oldLocks[1][hashl(x) % oldLocks[1].length]; 
oldLock0.lock(); 
oldLockl.lock(); 
who = owner.get (mark); 
if ((!mark[0] || who == me) && locks == oldLocks) { 
return; 
} else { 
oldiock0.unlock(); 
oldLockl.unlock(); 
} 
} 
} 
public void release(T x) { 
locks [0] [hash0(x)] .unlock(); 
locks [1] [hashi(x)].unlock(); 
} 











图 13-32 RefinableCuckooHashSet<T>; acquire() 和 release() 方 法 


resize() 方 法 (图 13-33) 与 StripedCuckooHashSet 类 中 的 resize() 方 法 几乎 相同 。 唯 
一 的 区 别 就 是 ，1ock[] 数 组 是 二 维 的 。 
323 和 Refinab1eHashSet 类 中 的 quiesce( ) 方 法 一 样 ，quiesce( ) 方 法 ( 见 图 13-34) 访问 每 
324| ”个 锁 并 等 待 直到 它们 被 释放 。 唯 一 的 不 同 在 于 ， 它 只 访问 1ock[0] 中 的 锁 。 
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42 public void resize() { 

43 int oldCapacity = capacity; 

44 Thread me = Thread.currentThread(); 

45 if (owner.compareAndSet(null, me, false, true)) { 
46 try { 

47 if (capacity != oldCapacity) { // someone else resized first 
48 return; 

49 } 

50 quiesce(); 

51 capacity = 2 * capacity; 

52 List<T>[]{] oldTable = table; 

53 table = (List<T>[][]) new List[2] [capacity]; 
54 locks = new ReentrantLock[2] [capacity]; 

55 for (int i = 0; i < 2; i++) { 

56 for (int j = 0; j < capacity; j++) { 

57 locks[i][j] = new ReentrantLock(); 

58 } 

59 } 

60 for (List<T>[] row : table) { 

61 for (int i = 0; i < row.length; i++) { 

62 row[i] = new ArrayList<T>(PROBE_SIZE); 
63 } 

64 } 

65 for (List<T>[] row : oldTable) { 

66 for (List<T> set : row) { 

67 for (T z : set) { 

68 add(z); 

69 } 

70 } 

71 } 

72 } finally { 

73 owner.set(null, false); 

74 } 

75 } 

76 } | 





13-33 RefinableCuckooHashSet<T>; resize() 方 法 





78 protected void quiesce() { 


79 for (ReentrantLock lock : locks[0]) { 
80 while (lock.isLocked()) {} 

81 } 

82 } 





图 13-34 RefinableCuckooHashSet<T>: quiesce( ) 方 法 


13.5 本 章 注释 

术语 不 相交 的 并 行 访问 (disjoint-access-parallelism) 是 由 Amos Israeli 和 Lihu Rappoport[76] 
创造 的 。Maged Michael[114] 已 经 证 明 ， 为 每 个 桶 使 用 一 个 读者 一 写 者 锁 [113] 的 简单 算法 有 着 
合理 的 性 能 ， 不 需要 重新 调整 大 小 。 基 于 有 序 划 分 ( 见 13.3.1 节 ) 的 无 锁 哈 希 集 是 由 Ori 
Shalev 和 Nir Shavit[141] 提 出 的 。 乐 观 的 细 粒 度 哈 希 集 则 来 自 于 Doug Lea[99] 提 出 的 哈 希 集 实 
现 ， 并 用 在 java.uti1.concurrent 中 。 

其 他 的 并 发 封闭 地 址 设计 包括 Meichun Hsu 和 Wei-Pang Yang[72], Vijay Kumar[87], 
Carla Schlatter Ellis[38] 以 及 Michael Greenwald[48]。Hui Gao、Jan Friso Groote 和 Wim 


327 


234 第 二 部 分 X KB 


Hesselink[44] 提 出 了 一 个 几乎 无 等 待 的 可 扩展 开放 地 址 哈 希 算法 ，Chris Purcell 和 Tim 
Harris[129] 提 出 了 一 种 具有 开放 地 址 的 并 发 无 阻塞 哈 希 表 。Cuckoo 哈 希 由 Rasmus Pagh 和 
Flemming Rodler[122] 提 出 ， 目 前 的 版 本 则 是 由 Maurice Herlihy, Nir Shavit 和 Moran 
Tzafrir[68] 完 成 的 。 


13.6 习题 


习题 158. 修改 StripedHashSet， 使 其 允许 通过 读 / 写 锁 调整 锁 数组 的 大 小 。 

习题 159. 对 于 LockFreeHashSet， 试 给 出 一 个 实例 来 说 明 ， 如 果 我 们 在 每 个 桶 的 开始 处 不 增加 一 
个 不 被 删除 的 哨兵 项 的 话 ， 那 么 在 删除 由 桶 引用 指向 的 表 项 时 ， 将 会 出 现 什么 样 的 问题 。 

习题 160. 对 于 LockFreeHashSet， 当 访问 大 小 为 N 的 表 中 的 一 个 未 被 初始 化 的 桶 上 时， 有 可 能 要 递归 
地 初始 化 〈 即 划分 ) O(log 入 个 父 桶 ， 以 允许 插入 一 个 新 桶 。 给 出 一 个 这 种 情形 的 实例 。 解 释 为 
什么 任意 的 这 种 划分 的 递归 序列 ， 其 预期 长 度 是 常数 。 

习题 161. 对 于 LockFreeHashSet ， 试 设计 一 个 无 锁 的 数据 结构 来 替换 固定 大 小 的 桶 数组 。 你 的 数 
据 结 构 必 须 允 许 任意 数目 的 桶 。 

习题 162. 概述 LockFreeHashSet 的 add()、remove() 和 contains() 方 法 的 正确 性 证 明 。 
提示 : 可 以 假定 LockFreeList 算 法 中 的 方法 是 正确 的 。 
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跳 表 和 平衡 查找 





前 面 学 习 了 几 种 基于 链表 和 哈 希 表 的 集合 的 并 发 实现 ， 本 章 将 介绍 具有 对 数 级 深度 的 并 
发 查找 结构 。 在 文献 中 已 有 很 多 并 发 的 对 数 级 查找 结构 ， 本 章 着 重 于 内 存 数据 (而 不 是 存放 
在 类 似 磁盘 这 样 的 外 部 存储 器 上 的 数据 ) 的 查找 结构 。 

很 多 流行 的 顺序 查找 结构 ， 比 如 红 黑 树 或 AVL 树 ， 需 要 定期 的 重新 平衡 以 保持 结构 的 对 
数 级 深度 。 重 新 平衡 对 于 基于 树 的 顺序 查询 结构 效果 显著 ,但 对 于 并 发 结构 则 可 能 引发 瓶颈 
和 竞争 。 本 章 主要 针对 一 种 已 证 明 不 需要 重新 平衡 就 能 提供 期 望 的 对 数 级 查找 时 间 的 数据 结 
构 : 跳 表 (SkipList)。 下 面 将 介绍 两 种 SkipList 实 现 : 情 性 跳 表 (LazySkipList) 类 是 一 
种 基于 锁 的 实现 ， 而 无 锁 跳 表 (LockFreeSkipList) 类 则 不 是 。 在 这 两 种 算法 中 ， 最 常用 的 
典型 方法 是 contains( )， 它 是 无 等 待 的 ， 用 于 查找 一 个 元 素 。 这 两 种 结构 都 采用 了 前 面 第 9 章 
的 设计 模式 。 


14.2 顺序 跳 表 


为 简单 起 见 ， 我 们 把 链表 看 作 是 一 个 集合 ， 这 意味 着 键 值 是 唯一 的 。SkipList 是 一 个 由 
已 排序 链表 所 组 成 的 集合 ， 它 巧妙 地 模仿 了 平衡 查找 树 。SkipList 中 的 结 点 按照 键 值 进行 排 
序 ， 每 个 结 点 都 被 链接 到 链表 的 一 个 子 集中 。 每 个 链表 都 有 一 个 级 别 ， 从 0 到 最 大 值 。 最 底层 
的 链表 包含 所 有 的 结 点 ， 每 个 高 层 链表 都 是 低层 链表 的 子 链表 。 图 14-1 表 示 一 个 具有 整 型 刍 
值 的 SkipList。 高 层 链表 是 进入 低层 链表 的 快捷 方式 ， 这 是 因为 大 致 来 说 ， 每 个 处 于 层 ; 的 链 
接 都 大 约 跳 过 2' 个 低 一 层 链表 中 的 结 点 
(例如 ， 图 14-1 显 示 的 SkipList 中 ， 层 3 
中 的 每 个 引用 都 跳 过 2 个 结 点 )。 在 给 
定 层 的 任意 两 个 结 点 之 间 ， 其 下 一 层 的 
结 点 数目 是 固定 的 ， 因 此 ，SkipList 的 r 
总 高 度 大 约 为 结 点 数 的 对 数 。 我 们 可 以 日 
MULT RA ATO, IEA mua sunk, ADMIRER. EMAAR 
































25 bs keys 





找 较 高 层 的 链表 , 跳 过 大 量 的 低层 结 点 ， Si nace aes Ie 

PERTHE, HAEREERE (Ri 的 链表 是 一 种 快捷 方式 ， 每 个 引用 跳 过 2 个 下 

有 ) 具有 目标 键 值 的 结 点 。 一 层 链表 的 结 点 。 例 如 ， 在 层 3， 引 用 跳 过 了 
US 2 个 结 点， 在 层 2， 跳 过 了 2 个 ， 以 此 类 扒 


有 人 知道 不 用 随机 性 如 何 来 提供 这 种 性 . 
能 ) ， 每 个 结 点 都 用 一 个 随机 的 顶层 (topLeve1) 来 创建 ， 并 属于 直到 该 层 的 所 有 链表 。 确 定 
了 顶层 之 后 ， 每 一 层 链表 中 结 点 的 期 望 个 数 呈 指数 递 碱 。 令 0<p<1 是 层 i 中 的 一 个 结 点 出 现在 计 1 


330 


236 第 二 部 分 实 B 





层 的 条 件 概率 。 因 为 所 有 的 结 点 都 出 现在 0 层 ， 那 么 一 个 0 层 中 的 结 点 出 现在 i (i>0) 层 的 概率 
则 为 p?。 例 如 ， 对 于 p=1/2， 期 望 所 有 结 点 的 1/2 出 现在 1 层 ， 结 点 的 1/4 出 现在 2 层 ， 以 此 类 推 ， 
从 而 除了 不 需 复 杂 的 全 局 重 构 之 外 ， 提供 了 类 似 基 于 树 的 经 典 顺序 查找 结构 所 具有 的 平衡 性 质 。 

我 们 将 head 和 tail 哨 兵 结 点 以 允许 的 最 大 高 度 放 在 链表 的 起 始 和 结束 位 置 。 初始 时 ， 
SkipList 为 空 时 ， 在 每 一 个 层 ，head (左边 的 哨兵 ) 是 tail (右边 的 哨兵 ) 的 前 驱 结 点 。head 
的 键 值 小 于 任何 可 能 被 添加 到 集合 中 的 结 点 的 键 值 ，tail 的 键 值 则 为 最 大 值 。 

每 个 SkipList 结 点 的 next 域 是 一 个 由 引用 组 成 的 数组 ， 每 个 数组 对 应 一 个 该 结 点 所 属 的 
链表 ， 这 样 ， 查找 一 个 结 点 就 意味 着 查找 它 的 前 驱 和 后 继 。 对 SkipList 的 搜索 总 是 从 head 开 
始 。find( ) 方 法 一 个 接 一 个 地 顺 着 层次 向 下 推进 ， 每 个 层 的 遍历 则 采用 类 似 LazyList 的 方式 ， 
使 用 指向 前 驱 结 点 的 引用 pred 和 指向 当前 结 点 的 引用 curr 。 一 旦 找到 一 个 具有 更 大 或 匹配 键 
值 的 结 点 ， 则 将 pred 和 curr 作 为 结 点 的 前 驱 和 后 继 记录 在 数组 preds[] 和 succs[] 中 ， 然后 继 
续 进 入 下 一 层 。 该 遍历 在 最 底层 终止 。 图 14-2a 表 示 一 次 顺序 的 find() 调 用 。 

为 了 将 一 个 结 点 加 入 到 SkipList 中 ， find ) 调 用 将 填写 preds[] 和 succs[] 数 组 。 创 建 这 
个 新 结 点 ， 并 链接 在 它 的 前 驱 和 后 继 之 间 。 图 14-2b 描 述 了 add(12) 调 用 。 





























层 A: find(12) 层 A: add(12) 
3 n ee 3 
1 1 
9 fe iy | 8 
: 4 coo Lo Oe GE Go) En i 
| 了 
“ly preds[1} a2 succs[O} succs{1] A 
Alasa Wea 
a) b) 


图 14-2 SkipList 类 : find() 和 add() 方 法 。 在 a 中 ，find( ) 从 最 高 层 开始 ， 只 要 curr 小 于 或 
等 于 目标 键 值 12， 则 对 每 个 层 进行 遍历 。 否 则 ， 它 将 pred 和 curr 保 存在 每 一 层 的 
preds[] 和 succs[] 数 组 中 ， 然 后 向 下 进入 到 低 一 层 。 例 如 ， 键 值 为 9 的 结 点 是 
preds[2] 和 preds[1]， 其 tail 为 succs[2]， 键 值 为 18 的 结 点 是 succs[1]。 这 里 ， 由 于 在 
最 底层 的 链表 中 找 不 到 键 值 为 12 的 结 点 ， 所 以 find( ) 返 回 false， 因 此 ， b 中 的 add(12) 
调用 可 以 继续 前 进 。 在 b 中 ， 一 个 新 的 结 点 以 随机 的 topLeve1 = 2 被 创建 。 该 新 结 点 的 
next 引 用 重新 指向 对 应 的 succs[] 结 点 ， 每 个 前 驱 结 点 的 next 引 用 重新 指向 该 新 结 点 

为 了 从 跳 表 中 删除 一 个 牺牲 结 点 ， find( ) 方 法 将 对 该 牺牲 结 点 的 preds[] 和 succs[] 数 组 

进行 初始 化 。 然后 通过 让 每 个 前 驱 的 next 引 用 重新 指向 该 牺牲 结 点 的 后 继 ， 将 该 牺牲 结 点 从 
所 有 层 的 链表 中 删除 。 


14.3 基于 锁 的 并 发 跳 表 


下 面 介 绍 第 一 种 并 发 跳 表 实现 ， 即 LazySkipList 类 。 该 类 建立 在 第 9 章 LazyList 算 法 的 基 
础 之 上 : LazyList 结 构 的 每 个 层 都 是 一 个 LazyList， 和 LazyList 算 法 一 样 ，LazySkipList 类 的 
add( ) 方 法 和 remove( ) 方 法 也 采用 了 乐观 的 细 粒 度 方式 来 上 锁 ， 其 contains( ) 方 法 是 无 等 待 的 。 


14.3.1 简介 
下 面 是 LazySkipList 类 的 概述 。 我 们 从 图 14-3 开 始 。 和 LazyList 类 一 样 ， 每 个 结 点 都 有 
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其 自己 的 锁 和 一 个 marked 域 ， 这 个 域 用 来 标记 结 点 是 否 在 抽象 集中 ， 或 者 已 经 被 逻辑 删除 了 。 
任何 时 候 ， 该 算法 都 保持 着 跳 表 特性 : 高 层 链表 总 是 包含 在 低层 链表 中 。 
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将 成 功 将 失败 成 功 失败 
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失败 成 功 
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图 14-3 LazySkipList3&: 失败 和 成 功 的 add( ) 和 remove( ) 调 用 。 在 a 中 ， add(18) 发 现 键 值 为 
18 的 结 点 未 被 标记 且 不 是 ful1yLinked (完全 链接 ) 。 它 将 自 旋 等 待 直 到 该 结 点 在 b 中 
变 为 fu11yLinked 为 止 ， 此 时 返回 名 ise。 在 a 中 ，remove(8) 发 现 键 值 为 8 的 结 点 未 被 标 
记 且 是 完全 链接 的 ， 这 意味 着 在 b 中 它 可 以 获得 该 结 点 的 锁 。 于 是 ， 设 置 标志 位 ， 并 
继续 对 结 点 的 前 驱 上 锁 ， 此 时 ， 结 点 的 键 值 为 5。 一 旦 前 驱 结 点 被 锁定 ， 则 通过 重新 
调整 最 底层 键 值 为 5 的 结 点 的 引用 ， 将 该 结 点 从 链表 中 物理 地 删除 ， 从 而 完成 成 功 的 
remove( )。a 中 的 remove(18) 是 失败 的 ， 因 为 它 发 现 结 点 不 是 完全 链接 的 。 同 样 的 
remove(18) 在 b 中 则 是 成 功 的 ， 因 为 它 发 现 该 结 点 是 完全 链接 的 


跳 表 特性 是 通过 采用 锁 来 防止 在 结 点 被 增加 或 删除 时 对 它 附 近 的 结构 改变 来 保持 的 ， 将 
对 结 点 的 访问 推迟 到 该 结 点 被 插入 到 链表 的 所 有 层 为 止 。 

要 增加 一 个 结 点 ， 必 须 在 多 个 层 将 该 结 点 链接 到 链表 中 。 每 个 add( ) 都 要 调用 find( )， 对 
跳 表 进行 遍历 并 返回 结 点 在 所 有 层 的 前 驱 和 后 继 。 增 加 结 点 上 时， 为 了 防止 对 其 前 驱 的 改变 ， 
adi ) 要 锁定 其 前 驱 结 点 ， 以 确保 该 锁定 的 前 驱 仍 然 指 向 它们 的 后 继 ， 然 后 按照 类 似 于 图 14-2 
中 顺序 add( ) 的 方式 ， 添 加 该 结 点 。 为 了 保持 跳 表 特性 ， 除 非 指 向 一 个 结 点 的 每 个 引用 在 所 有 
层 都 已 被 设置 ， 否 则 不 能 认为 该 结 点 逻辑 上 存在 于 集合 中 。 每 个 结 点 都 有 一 个 额外 的 标记 
fullyLinked (完全 链接 )， 一 旦 结 点 被 链 入 它 的 所 有 层 ， 就 将 该 标 记 设置 为 frue。 除 非 结 点 
是 完全 链接 的 ， 我 们 才能 访问 它 。 因 此 ， 比 如 ， 当 add( ) 试 图 确定 它 要 添加 的 结 点 是 否 已 在 链 
表 中 时 ， 它 必须 自 旋 等 待 ， 直 到 该 结 点 变 成 fu11yLinked 为 止 。 图 14-3 表 示 一 次 add(18) 调 用 ， 
它 一 直 等 待 ， 直 到 键 值 为 18 的 结 点 变 成 完全 链接 的 。 

大 要 从 链表 中 删除 一 个 结 点 ，remove( ) 首 先 使 用 find( ) 来 检查 具有 目标 键 值 的 牺牲 结 点 
是 否 已 在 链表 中 。 如 果 是 ， 则 检查 该 牺牲 结 点 是 否 已 准备 好 被 删除 ， 也 就 是 说 ， 应 是 完全 链 
接 且 未 标记 的 。 在 图 14-3a 中 ，remove(8) 发 现 键 值 为 8 的 结 点 没有 标记 且 是 完全 链接 的 ， 说 明 
可 以 删除 它 。remove(18) 调 用 是 失败 的 ， 其 原因 在 于 它 发 现 牺 牲 结 点 不 是 完全 链接 的 。 同 样 
的 remove(18) 调 用 在 图 14-3b 中 却 成 功 了 ， 因 为 它 发 现 辆 牲 结 点 是 完全 链接 的 。 

如 采 笨 和 性 结 点 可 以 被 删除 ，remove( ) 则 通过 设置 它 的 标志 位 来 逻辑 地 删除 。 对 牺牲 结 点 
的 物理 删除 按照 下 面 步骤 完成 : 先 锁 定 辆 牲 者 在 所 有 层 的 前 驱 ， 然 后 锁定 牺 性 者 自身 ， 再 确 
认 基 前 驱 未 标记 且 仍 指向 牺牲 者 ， 最 后 ， 一 次 一 层 地 剪接 辆 牲 结 点 。 为 了 保持 跳 表 特性 ， 应 
从 顶 到 底 地 剪接 牺 性 结 点 。 
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例如 ， 在 图 14-3b 中 ，remove(8) 锁 定 键 值 为 5 的 前 驱 结 点 。 一 旦 该 前 驱 被 锁定 ，remove( ) 就 
将 键 值 为 5 的 结 点 在 最 底层 的 引用 改 为 指向 键 值 为 9 的 结 点 ， 从 而 从 链表 中 物理 地 删除 该 结 点 。 

在 add( ) 和 remove( ) 方 法 中 ， 如 果 确 认 失 败 ， 则 再 次 调用 find( ) 以 发 现 最 近 被 改变 的 前 
驱 集 合 ， 并 试图 再 次 完成 该 方法 。 

无 等 待 的 contains ( ) 方 法 调用 find( ) 来 确定 包含 目标 键 值 的 结 点 。 如 果 发 现 一 个 结 点 ， 
则 检查 该 结 点 是 否 未 标记 且 完 全 链接 ， 以 确定 该 结 点 是 否 在 集合 中 。 这 种 方法 和 LazyList 类 
的 contains( ) 方 法 一 样 ， 是 无 等 待 的 ， 因 为 它 忽 略 了 SkipList 结 构 中 的 所 有 锁 或 并 发 改变 。 

概括 来 说 ，LazySkipList 类 采用 了 一 种 与 早期 算法 相近 的 技术 : 持 有 所 有 将 被 修改 单元 的 
锁 ， 确 认 没 有 重大 改变 发 生 ， 然 后 完成 修改 ， 再 释放 锁 (本 章 中 ，fu11yLinked 标 志 相当 于 锁 ) 。 


14.3.2 算法 


图 14-4 描 述 了 LazySkipList 的 Node 类 。 当 且 仅 当 链 表 中 包含 一 个 未 标记 的 、 完 全 链接 的 、 
有 具有 茶 个 键 值 的 结 点 时 ， 该 键 值 才 在 集合 中 。 图 14-3a 中 的 键 值 8 就 是 一 个 这 样 的 例子 。 





public final class LazySkipList<T> { 
static final int MAX LEVEL = ...; 
final Node<T> head = new Node<T>(Integer.MIN VALUE) ; 
final Node<T> tail = new Node<T>(Integer.MAX_ VALUE) ; 
public LazySkipList() { 
for (int i = 0; i < head.next.length; i++) { 
head.next[i] = tail; 


} 


1 

2 

3 

4 

5 

6 

7 

8 

9 

10 ia 

11 private static final class Node<T> { 

12 final Lock lock = new ReentrantLock(); 
13 final T item; 

14 final int key; 

15 final Node<T>[] next; 

16 volatile boolean marked = false; 

17 volatile boolean fullyLinked = false; 
18 private int topLlevel; 

19 public Node(int key) { // sentinel node constructor 











20 this.item = null; 

21 this.key = key; 

22 next = mew Node[MAX_LEVEL + 1]; 
23 topLevel = MAX LEVEL; 

24 } 

25 public Node(T x, int height) { 
26 item = x; 

27 key = x.hashCode(); 

28 next = new Node[height + 1]; 
29 topLevel = height; 

30 } 

31 public void lock() { 

32 lock. lock(); 

33 } 

34 public void unlock() { 

35 Jock.untock(); 





图 14-4 LazySkipList 类 ， tA% 7nNode% 
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图 14-5 表 示 跳 表 的 find( ) 方 法 。( 同 样 的 方法 在 顺序 和 并 发 算法 中 也 能 使 用 。) 如 果 没 有 
找到 元 素 ，find( ) 方 法 返回 -1。 该 方法 使 用 pred 和 curr 引 用 在 最 高 层 从 head 开 始 遍 历 
SkipList。 可 以 动态 地 保持 最 高 层 ， 以 反映 SkipList 的 实际 最 高 层 。 为 简单 起 见 ， 这 里 没有 
这 样 做 。find( ) 方 法 一 层 接 一 层 地 向 下 进行 。 在 每 个 层 ， 将 curr 设 为 pred 结 点 的 后 继 。 如 果 
找到 一 个 具有 匹配 键 值 的 结 点 ， 则 记录 这 个 层 数 (第 48 行 )。 否 则 ， 就 将 pred 和 curr 作 为 该 层 
中 的 前 驱 和 后 继 ， 记 录 在 preds[] 和 succs[] 数 组 中 〈 第 51~52 行 )， 然 后 继续 在 下 一 层 从 当 
前 的 pred 结 点 开始 执行 。 图 14-2a 表 示 find( ) 是 如 何 遍历 SkipList 的 ，b 表 示 如 何 利用 find( ) 
的 结果 向 SkipList 中 添加 一 个 新 元 素 。 

39 int find(T x, Node<T>[] preds, Node<T>[] succs) { 





40 int key = x.hashCode(); 

41 int 1Found = -1; 

42 Node<T> pred = head; 

43 for (int level = MAX LEVEL; level >= 0; level--) { 
44 volatile Node<T> curr = pred.next[level]; 
45 while (key > curr.key) { 

46 pred = curr; curr = pred.next[level]; 
47 } 

48 if (1Found == -1 && key == curr.key) { 

49 1Found = level; 

50 } 

51 preds[level] = pred; 

52 succs[level] = curr; 

53 } 

54 return 1]Found; 

55 } 








图 14-5 LazySkipList 类 : 无 等 待 的 find( ) 方 法 。 这 个 算法 与 顺序 SkipList 相 同 。preds[] 和 
succs[] 数 组 中 存放 着 对 给 定 键 值 从 最 高 层 到 0 层 的 前 驱 和 后 继 


由 于 我 们 在 head 哨 兵 结 点 用 pred 来 开始 ， 并 且 总 是 在 curr 小 于 目标 键 值 的 情况 下 将 窗口 
向 前 推进 ， 所 以 pred 一 直 都 是 目标 键 值 的 前 驱 ， 且 永远 不 会 指向 具有 该 键 值 本 身 的 结 点 。 
find( ) 方 法 返回 数组 pred[] 和 succs[]， 也 返回 具有 匹配 键 值 的 结 点 所 在 的 层 。 

图 14-6 中 的 add(k) 方 法 使 用 find() (图 14-5) 来 决定 具有 目标 键 值 / 的 结 点 是 否 已 在 链表 
中 〈 第 42 行 )。 如 果 发 现 一 个 具有 该 键 值 的 未 标记 结 点 (第 62~67 行 )，add(k) 则 返回 jalse， 
表明 键 值 上 已 在 集合 中 。 然 而 ， 如 果 那 个 结 点 还 不 是 完全 链接 的 〈 由 ful11y1inked 域 指出 ) ， 那 
么 线程 将 等 待 直到 它 被 链接 为 止 ( 因 为 只 有 当 结 点 是 完全 链接 的 ， 键 值 + 才 在 抽象 集中 )。 如 
果 发 现 结 点 被 标记 ， 则 说 明 其 他 的 线程 正在 删除 该 结 点 ， 因 此 add( ) 调 用 只 是 简单 地 重 试 。 否 
则 ， 它 检查 该 结 点 是 否 是 未 标记 且 完 全 链接 的 ， 这 表明 add( ) 应 该 返回 false。 因 为 remove() 方 
法 只 标记 完全 链接 的 结 点 ， 所 以 将 检查 结 点 是 否 是 未 标记 的 放 在 检查 结 点 是 否 是 完全 链接 的 
之 前 进行 ， 是 一 种 安全 的 办 法 。 如 果 一 个 结 点 是 未 标记 的 但 还 不 是 完全 链接 的 ， 那 么 在 该 结 
点 变 为 已 标记 的 之 前 必须 是 未 标记 且 完 全 链接 的 (图 14-6)。 第 66 行 是 一 个 不 成 功 add( ) 调 用 
的 可 线性 化 点 。 

add( ) 方 法 调用 find( ) 来 初始 化 preds[] 和 succs[] 数 组 ， 以 存放 要 加 入 结 点 的 假 前 驱 和 
假 后 继 。 因 为 当 结 点 被 访问 时 这 些 引 用 有 可 能 不 再 准确 ， 所 以 它们 是 不 真实 的 。 如 果 没 有 找 
到 具有 键 值 的 未 标记 且 完 全 链接 的 结 点 ， 那 么 线程 将 从 新 结 点 的 0 层 直 到 topleve1 锁 定 并 验 
证 每 个 由 find( ) 返 回 的 前 驱 〈 第 74~ 80 行 )。 为 了 避免 死 锁 ，add( ) 和 remove( ) 应 以 升序 来 获 
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取 锁 。 在 add() 开 始 的 最 初时 刻 ， 
给 证 中 (87947), 
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用 randomLeve1() 方 法 9 来 决定 topleve1 的 值 。 在 每 个 层 的 
检查 前 驱 是 否 仍 然 邻近 后 继 且 都 没有 被 标记 。 如 果 验 证 失败 ， 说 明 线程 肯 


定 受 到 冲突 方法 的 影响 ， 因 此 ， 有 释放 其 所 获得 的 锁 (第 87 行 的 finally 块 )， 并 重新 尝试 。 






boolean add(T x) { 


int topLevel = randomLevel(); 
Node<T>[] preds = (Node<T>[]) new Node[MAX_LEVEL + 1]; 
Node<T>[] succs = (Node<T>[]) new Node[MAX_LEVEL + 1]; 
while (true) { 
int 1Found = find(x, preds, succs); 
if (1Found != -1) { 
Node<T> nodeFound = succs[1Found]; 
if (!nodeFound.marked) { 
while (!nodeFound.fullyLinked) {} 
return false; 
} 
continue; 
} 
int highestLocked = -1; 
try { 
Node<T> pred, succ; 
boolean valid = true; 
for (int level = 0; valid && (level <= topLevel); level++) { 
pred = preds[level]; 
succ = succs[level]; 
pred. lock.lock(); 
highestLocked = level; 
valid = !pred.marked && !succ.marked && pred.next[level]==succ; 


if (ivalid) continue; 

Node<T> newNode = new Node(x, topLevel); 

for (int level = 0; level <= topLevel; level+t) 
newNode.next[level] = succs[level]; 

for (int level = 0; level <= topLevel; level++) 
preds[level].next[level] = newNode; 

newNode.fullyLinked = true; // successful add linearization point 

return true; 

finally { 

for (int level = 0; level <= highestLocked; level++) 

preds[level] .unlock(); 


~ 


图 14-6 LazySkipList2&; add() 方 法 


如 果 线 程 成 功 地 锁定 并 验证 了 直到 新 结 点 的 top1eve1 的 find() 返 回 值 ， 那 么 add( ) 调 用 


成 功 ， 因 为 线程 持 有 了 它 所 需 的 所 有 锁 。 然 后 ， 线 程 分 配 一 个 具有 适当 键 值 的 新 结 


地 选择 topleve1， 


点 ， 随 机 


将 该 结 点 链 入 并 设置 新 结 点 的 ful11yLinked 标 志 。 对 标志 的 设置 则 是 一 次 
成 功 的 add( ) 调 用 的 可 线性 化 点 (第 87 行 )。 之 后 ， 线 程 释放 所 有 的 锁 并 返回 true (#8947). 
线程 能 够 修改 未 上 锁 结 点 的 next 域 的 唯一 时 刻 就 是 在 它 初 始 化 新 结 点 的 next 引 用 时 (第 83 行 )。 
因为 初始 化 发 生 在 新 结 点 可 以 访问 之 前 ， 所 以 它 是 安全 的 。 


O ”基于 经 验 评测 设计 的 randomLeve1( ) 方 法 用 来 维持 跳 表 特 性 。 例 如 ， 在 Java 并 发 程序 包 中 ， 对 于 最 大 级 别 


数 为 31 的 跳 表 ， 概率 是 二 时 randonLeve1( ) 方 法 返回 0， 对 于 iE[1,30] 的 概率 是 2“?， 且 31 的 概率 是 2 “7。 
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remove( ) 方 法 如 图 14-7 所 示 。 它 调用 find( ) 来 确定 具有 适当 键 值 的 结 点 是 否 在 链表 中 。 
如 果 是 ， 那 么 线程 检查 这 个 结 点 是 否 已 准备 好 要 被 删除 (第 104 行 )， 即 结 点 是 完全 链接 的 、 
未 被 标识 的 且 在 其 最 高 层 中 。 最 高 层 之 下 的 结 点 要 么 还 未 完全 链接 (图 14-3a 中 键 值 为 18 的 结 
点 ) ， 要 么 已 被 标记 并 已 被 一 个 并 发 remove( ) 方 法 部 分 地 断 开 了 链接 。( 这 个 remove( ) 方 法 可 
以 继续 执行 ， 但 在 接 下 来 的 验证 中 会 失败 。) 





boolean remove(T x) { 














96 Node<T> victim = null; boolean isMarked = false; int topLevel = -1; 
97 Node<T>[] preds = (Node<T>[]) new Node[MAX_LEVEL + 1]; 
98 Node<T>[] succs = (Node<T>[]) new Node[MAX LEVEL + 1]; 
99 while (true) { = 

100 int 1Found = find(x, preds, succs); 

101 if (1Found != -1) victim = succs[1Found]; 

102 if (isMarked || 

103 (1Found != -1 && 

104 (victim. fullyLinked 

105 && victim.topLevel == 1Found 

106 && !victim.marked))) { 

107 if (!isMarked) { 

108 topLevel = victim.topLevel; 

109 victim. lock. lock(); 

110 if (victim.marked) { 

111 victim. lock.unlock(); 

112 return false; 

113 } 

114 victim.marked = true; 

115 isMarked = true; 

116 } 

117 int highestLocked = -1; 

118 try { 

119 Node<T> pred, succ; boolean valid = true; 

120 for (int level = 0; valid && (level <= topLevel); level++) { 
121 pred = preds[level]; 

122 pred. lock. lock(); 

123 highestLocked = level; 

124 valid = !pred.marked && pred.next[level]==victim; 
125 } 

126 if (!valid) continue; 

127 for (int level = topLevel; level >= 0; level--) { 
128 preds[level] .next[level] = victim.next[level]; 
129 } 

130 victim. }ock.unlock(); 

131 return true; 

132 } finally { 

133 for (int i = 0; i <= highestLocked; i++) { 

134 preds [i] .unlock(); 

135 } 

136 } 

137 } else return false; 

138 } 

139 } 








图 14-7 LazySkipList2&; remove( ) 方 法 


如 果 结 点 已 做 好 被 删除 的 准备 ， 线 程 则 对 其 上 锁 (第 109 行 ) 并 验证 它 是 否 仍 未 标记 。 如 
果 还 没有 被 标记 ， 则 标记 该 结 点 ， 逻 辑 地 删除 这 个 元 素 。 第 114 行 的 操作 步 是 一 次 成 功 的 
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remove( ) 调 用 的 可 线性 化 点 。 如 果 结 点 已 被 标记 ， 那 么 线程 返回 false， 因 为 这 个 结 点 已 经 被 
删除 了 。 该 操作 步 是 一 次 不 成 功 的 remove( ) 调 用 的 可 线性 化 点 。 当 find( ) 没 有 找到 一 个 具有 
匹配 键 值 的 结 点 ， 或 者 找到 的 匹配 结 点 已 经 被 标记 ， 或 者 不 是 完全 链接 的 ， 或 者 在 它 的 最 高 
层 中 也 没有 找到 时 (第 104 行 )， 则 会 出 现 另 一 种 情形 。 

该 方法 余下 的 部 分 是 对 victim 结 点 进行 物理 删除 。 为 了 从 链表 中 删除 牺牲 者 ，remove() 
方法 首先 在 直到 牺牲 者 top1eve1 的 所 有 层 中 ， 锁 定 (用 升序 ， 以 防止 死 锁 ) 牺牲 者 的 前 驱 结 
点 〈 第 120~ 124 行 )。 每 锁定 一 个 前 驱 ， 则 验证 该 前 驱 仍 未 标识 且 仍 指向 辆 牲 者 。 然 后 ， 一 次 
一 层 地 将 牺牲 者 剪接 掉 〈 第 128 行 )。 为 了 保持 跳 表 特性 ， 即 在 一 个 给 定 层 可 达 的 结 点 在 较 低 
层 也 是 可 达 的 ， 应 该 从 顶 向 下 地 剪接 牺牲 者 。 如 果 任 一 层 的 验证 失败 ， 线 程 将 释放 所 有 前 驱 
的 锁 (不 包括 牺牲 者 )， 然 后 调用 find( ) 获 取 一 组 新 的 前 驱 结 点 。 因 为 牺牲 者 的 isMarked 域 
已 被 设置 ， 所 以 线程 不 再 尝试 标记 这 个 结 点 。 在 成 功 删 除 牺 牲 者 结 点 以 后 ， 线 程 将 释放 它 的 
所 有 锁 并 返回 true。 

最 后 ， 如 果 没 有 找到 任何 结 点 ， 或 者 找到 的 结 点 已 经 被 标记 ， 或 者 不 是 完全 链接 的 ， 或 
者 在 其 最 高 层 没 有 找到 ， 那 么 只 是 简单 地 返回 false。 显 然 ， 如 果 结 点 没有 被 标记 ， 返 回 false 
是 正确 的 ， 因 为 对 任意 的 键 值 ， 在 任何 时 候 SkipList 中 最 多 只 能 有 一 个 具有 该 键 值 的 结 点 
(也 就 是 从 head 是 可 达 的 )。 况 且 ， 一旦 一 个 结 点 被 链 入 链表 (必定 是 在 被 find( ) 方 法 找到 之 
前 链 入 的 ) ， 那 么 在 被 标记 之 前 就 不 能 删除 该 结 点 。 由 此 可 知 ， 如 果 结 点 未 标记 且 不 是 完全 链 
接 的 ， 则 必定 处 于 正在 加 入 SkipList 的 过 程 中 ， 但 这 个 正在 添加 的 方法 还 没有 到 达 可 线性 化 
点 (图 14-3a 中 键 值 为 18 的 结 点 )。 

如 果 发 现 该 结 点 时 已 被 标记 ， 那 么 它 有 可 能 不 在 链表 中 ， 而 可 能 是 其 他 某 个 具有 相同 键 
值 的 未 标记 结 点 。 然 而 ， 在 这 种 情况 下 ， 正 如 LazyList 的 remove( ) 方 法 一 样 ， 在 remove( ) 调 
用 过 程 中 必然 存在 着 键 值 不 在 抽象 集中 的 时 间 点 。 

无 等 待 的 contains() 方 法 (图 14-8) 调用 find( ) 来 确定 具有 目标 键 值 的 结 点 。 如 果 找 到 
一 个 结 点 ， 则 检查 该 结 点 是 否 未 标记 且 完 全 链接 。 和 第 9 章 LazyList 类 的 contains() 方 法 一 
样 ， 这 个 方法 也 是 无 等 待 的 ， 它 不 考虑 SkipList 结 构 中 的 任何 锁 和 并 发 改变 。 一 次 成 功 的 
contains( ) 调 用 的 可 线性 化 点 是 遍历 前 驱 结 点 的 next 引 用 时 ， 发 现 它 未 标记 且 完 全 链接 的 时 
刻 。 和 remove( ) 调 用 一 样 ， 如 果 contains( ) 方 法 找到 一 个 已 标记 的 结 点 ， 则 是 一 次 不 成 功 的 
调用 。 但 是 必须 谨慎 行事 ， 因 为 当 该 结 点 被 找到 时 ， 它 并 不 一 定 在 链表 中 ， 而 可 能 是 某 个 具 
有 相同 键 值 的 未 标记 结 点 。 然 而 在 contains ( ) 方 法 调用 期 间 ， 必 定 存在 一 个 键 值 不 在 抽象 集 
中 的 时 刻 。 





140 boolean contains(T x) { 

141 Node<T>[] preds = (Node<T>[]) new Node[MAX LEVEL + 1]; 
142 Node<T> succs = (Node<T>[]) new Node[MAX LEVEL + 1]; 
143 int 1Found = find(x, preds, succs); 

144 return (]Found != -1 

145 && succs[1Found] .fullyLinked 

146 && !succs[]1Found] .marked) ; 

147 } 











图 14-8 LazySkipList 类 : 无 等 待 的 contains( ) 方 法 
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14.4 无 锁 并 发 跳 表 


LockFreeSkipList 实 现 的 基础 是 第 9 章 的 LockFreeList 算 法 : SkipList 结 构 的 每 一 层 是 
一 个 LockFreeList， 每 个 结 点 的 next 引 用 是 一 个 AtomicMarkableReference<Node>， 对 链表 
的 操作 通过 compareAndSet( ) 完 成 。 


14.4.1 简介 


下 面 是 LockFreeSkipList 类 的 概述 。 

因为 无 法 在 所 有 层 同时 使 用 锁 对 引用 进行 操作 ， 所 以 LockFreeSkipList 不 能 保持 跳 表 特 
性 一 一 每 个 链表 都 是 较 低 层 链表 的 子 链表 。 

既然 不 能 保持 跳 表 特性 ， 我 们 采用 由 最 底层 链表 定义 抽象 集 的 方法 : 如 果 一 个 结 点 的 
next 引 用 在 最 底层 链表 未 被 标记 ， 那 么 这 个 结 点 的 键 值 在 抽象 集中 。 在 跳 表 中 ， 高 层 链表 中 
的 结 点 仅仅 是 最 底层 结 点 的 快捷 符号 。 因 此 ， 没 有 必要 像 LazySkipList 那 样 采用 一 个 
fullyLinked 标 志 。 

如 何 添 加 或 者 删除 一 个 结 点 呢 ?” 将 链表 的 每 一 层 看 成 是 一 个 LockFreeList。 对 一 个 给 定 
的 层 ， 使 用 compareAndSet() 方 法 插入 一 个 结 点 ， 通 过 标记 结 点 的 next 引 用 删除 这 个 结 点 。 

和 LockFreeList 一 样 ，find( ) 方 法 清除 被 标记 的 结 点 。 它 遍历 跳 表 ， 向 下 访问 每 一 层 的 
每 个 链表 。 和 LockFreeList 类 中 的 find( ) 方 法 一 样 ， 当 过 到 被 标记 的 结 点 时 ， 不 断 地 清除 这 
些 结 点 ， 决 不 查看 被 标记 结 点 的 键 值 。 然 而 ， 这 也 意味 着 一 个 正在 被 链接 到 更 高 层 的 结 点 可 
能 会 被 物理 地 删除 。 穿 过 结 点 中 间 层 引用 的 find( ) 调 用 可 能 删除 这 些 引 用 ， 和 前 面 一 样 ， 跳 
表 特 性 不 再 成 立 。 

add( ) 方 法 调用 find( ) 来 确定 一 个 结 点 是 否 已 在 链表 中 ， 并 找到 该 结 点 的 前 驱 和 后 继 集 。 
一 个 新 结 点 与 一 个 随机 选取 的 top1eve1 一 起 准备 ， 且 它 的 next 引 用 指向 由 find() 返 回 的 那些 
可 能 的 后 继 。 下 一 步 采 用 与 LockFreeList 相 同 的 方法 ， 通 过 将 新 结 点 链接 到 最 底层 链表 ， 从 
而 在 逻辑 上 将 这 个 新 结 点 加 入 到 抽象 集中 。 如 果 添 加 成 功 ， 那 么 这 个 元 素 逻 辑 上 存在 于 集合 
中 。 然 后 ，add( ) 调 用 将 这 个 结 点 链接 到 更 高 的 层次 (直到 它 的 最 高 层 )。 

图 14-9 表 示 LockFreeSkipList 类 。 在 a 中 ，add(12) 调 用 find(12)， 此 时 ， 有 3 个 remove() 
调用 正在 进行 中 。b 表 示 重 新 指向 虚线 链接 后 的 结果 。c 表 示 随 后 对 键 值 为 12 的 新 结 点 进行 添 
加 的 过 程 。d 则 表示 如 果 键 值 为 11 的 结 点 在 键 值 为 12 的 结 点 被 添加 前 就 已 删除 ， 那 么 将 会 发 生 
的 另 一 种 添加 情形 。 

remove( ) 方 法 调用 find( ) 来 确定 具有 目标 键 值 的 未 标记 结 点 是 否 在 最 底层 链表 中 。 如 果 
找到 一 个 未 标记 结 点 ， 则 从 topleve1 开 始 标记 该 结 点 。 除 了 最 底层 的 next 引 用 ， 所 有 的 next 
引用 都 通过 做 标记 来 从 其 所 在 层 的 链表 中 风 辑 地 删除 。 在 除 最 底层 之 外 的 所 有 层 都 被 标记 之 
后 ， 再 来 标记 最 底层 的 next 引 用 。 如 果 这 次 标记 成 功 ， 则 元 素 从 抽象 集中 删除 。 结 点 的 物理 
删除 是 通过 remove( ) 方 法 本 身 和 遍历 跳 表 时 访问 它 的 其 他 线程 的 find( ) 方 法 ， 在 所 有 层 的 链 
表 中 都 物理 地 删除 该 结 点 来 完成 的 。 在 add( ) 和 remove( ) 方 法 中 ， 因 为 在 compareAndSet ( ) 失 
败 时 ， 前 驱 集 和 后 继 集 有 可 能 已 被 改变 ， 所 以 必须 再 次 调用 find( ) 方 法 。 

add()、remove() 和 find( ) 方 法 之 间 交 互 的 关键 在 于 链表 操作 的 发 生 次 序 。add( ) 方 法 在 
将 结 点 链接 到 最 底层 链表 之 前 ， 将 它 的 next 引 用 设置 为 它 的 后 继 ， 这 意味 着 一 个 结 点 在 被 逻 
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辑 地 加 入 到 链表 中 的 时 刻 ， 就 已 做 好 被 删除 的 准备 了 。 同 样 ，remove( ) 方 法 从 上 到 下 标记 
next 引 用 ， 这 样 ， 一旦 结 点 被 逻辑 地 删除 ， 就 不 会 被 find( ) 调 用 遍历 到 了 。 


层 A: find(12) 






































n : 





4 od 


B: remove(2) 





C: remove(9) D: remove(15) C: remove(9) D: remove(15) 


a) A: add(12) b) A: add(12) 
































: : 11 è 9 
B: remave(2) C: remove(9} A: insert(12) B: remove(11}) C: remove(9) A: insert(12) 


c) A:add(12) d) remove(11) JG A:add(12) 


图 14-9 LockFreeSkipList#: 一 次 add() 调 用 。 每 个 结 点 由 未 标识 的 (a 0) 或 已 标识 的 (a 1) 链 
接 组 成 。 在 a 中 ，add(12) 调 用 find(12)， 此 时 ， 有 3 个 正在 进行 中 的 remove( ) 调 用 。 
find( ) 方 法 在 遍历 跳 表 的 过 程 中 “清除 ”已 标记 的 链接 (用 1 表示 )。 这 个 遍历 过 程 与 
顺序 的 find(12) 不 同 ， 因 为 一 旦 遇 到 被 标记 的 结 点 ， 要 把 它们 的 链接 断 开 。 图 中 标 出 
的 路 径 显 示 了 由 pred 引 用 所 遍历 的 结 点 ， 这 个 引用 总 是 指向 未 标记 且 键 值 小 于 目标 键 
值 的 结 点 。b 显 示 了 重新 调整 指向 虚线 链接 后 的 结果 。 我 们 通过 把 链接 放 在 结 点 前 面 
来 绕 过 该 结 点 。 结 点 15 在 最 底层 的 next 引 用 是 被 标识 的 ， 要 把 它 从 跳 表 中 删除 。c 显 
示 了 随后 对 键 值 为 12 的 新 结 点 的 添加 过 程 。d 显 示 了 另 一 种 可 能 的 添加 场景 一 一 键 值 
为 11 的 结 点 在 添加 键 值 为 12 的 结 点 之 前 被 删除 。 因 为 键 值 为 9 的 结 点 在 最 底层 的 next 
引用 还 未 标记 ， 所 以 最 底层 的 前 驱 结 点 的 next 引 用 为 已 标记 的 ， 要 通过 add( ) 方 法 重 
新 指向 新 结 点 。 一 旦 线程 C 完 成 了 对 这 个 引用 的 标记 ， 键 值 为 9 的 结 点 就 被 删除 ， 日 键 
值 为 5 的 结 点 变 为 新 添加 结 点 的 直接 前 驱 


如 我 们 所 知 ， 在 大 多 数 应 用 中 ， 对 contains( ) 的 调用 要 比 对 其 他 方法 的 调用 次 数 多 。 所 
以 ，contains( ) 不 应 该 调用 find( ) 方 法 。 虽 然 让 单独 的 find( ) 方 法 去 物理 地 删除 那些 被 逻辑 
删除 的 结 点 是 一 种 行 之 有 效 的 办 法 ,但 当 太 多 的 find( ) 试 图 同时 清除 同一 个 结 点 时 ， 则 会 导 
致 争 用 。 这 种 争 用 在 频繁 的 contains( ) 调 用 中 要 比 在 其 他 方法 调用 中 更 容易 出 现 。 

但 是 ， contains( ) 方 法 不 能 使 用 LockFreeList 类 中 的 contains( ) 方 法 所 采用 的 做 法 是 ， 
查看 键 值 并 简单 地 忽略 已 标记 结 点 。 原 因 在 于 add( ) 和 remove( ) 方 法 有 可 能 破坏 跳 表 特性 。 一 
个 被 标记 的 结 点 从 最 底层 链表 中 物理 删除 后 ， 在 高 层 上 仍 有 可 能 是 可 达 的 。 忽 略 标记 则 有 可 
能 导致 跳 过 在 较 低 层 可 达 的 结 点 。 

但 要 注意 ，LockFreeSkipList 的 find( ) 方 法 不 受 这 个 问题 的 影响 ， 因 为 它 从 来 不 管 已 标 
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记 结 点 的 键 值 ， 而 是 直接 删除 它们 。 我 们 让 contains() 方 法 来 模拟 这 种 行为 ， 但 却 不 删除 已 
标记 结 点 。 相 反 ，contains() 方 法 遍历 跳 表 ， 忽 略 已 标记 结 点 的 键 值 ， 跳 过 这 些 结 点 而 不 物 
理 删 除 。 由 于 不 需要 物理 删除 ， 所 以 这 种 方法 是 无 等 待 的 。 


14.4.2 算法 细节 


当 我 们 展现 算法 细节 的 时 候 ， 读 者 应 该 牢记 抽象 集 只 是 通过 最 底层 链表 来 定义 的 ， 高 层 
链表 中 的 结 点 只 是 进入 最 底层 结 点 的 一 种 快捷 方式 。 图 14-10 表 示 链 表 结 点 的 结构 。 


1 public final class LockFreeSkipList<T> { 

2 static final int MAX LEVEL = ...; 

3 final Node<T> head = new Node<T>(Integer.MIN VALUE) ; 
4 final Node<T> tail = new Node<T>(Integer.MAX_VALUE) ; 
5 public LockFreeSkipList() { 
6 

7 

8 






for (int i = 0; i < head.next.length; i++) { 
head.next[i] 
= new AtomicMarkab] eReference<LockFreeSkipList.Node<T>>(tail, false); 





9 } 

10} 

11 public static final class Node<T> { 

12 final T value; final int key; 

13 final AtomicMarkableReference<Node<T>>[] next; 

14 private int topLevel; 

15 // constructor for sentinel nodes 

16 public Node(int key) { 

17 value = null; key = key; 

18 next = (AtomicMarkableReference<Node<T>>[]) 

19 new AtomicMarkableReference[MAX LEVEL + 1]; 

20 for (int i = 0; i < next.length; i++) { 

21 next[i] = new AtomicMarkab] eReference<Node<T>>(null, false) ; 

22 

23 topLevel = MAX LEVEL; 

24 } 

25 // constructor for ordinary nodes 

26 public Node(T x, int height) { 

27 value = x; 

28 key = x.hashCode(); 

29 next = (AtomicMarkableReference<Node<T>>[] ) 
new AtomicMarkableReference[height + 1]; 

30 for (int i = 0; i < next.length; i++) { 

31 next[i] = new AtomicMarkableReference<Node<T>>(null, false); 

32 

33 topLevel = height; 

34 } 

35 } 





图 14-10 LockFreeSkipList2#;: 域 和 构造 函数 


图 14-11 中 的 add( ) 方 法 使 用 图 14-13 中 的 find( ) 方 法 来 确定 一 个 键 值 为 的 结 点 是 否 在 链 
KP (第 61 行 )。 和 LazySkipList 一 样 ，add( ) 调 用 find( ) 来 初始 化 数组 preds[] 和 succs[]， 
以 存放 新 结 点 的 假 前 驱 和 假 后 继 。 

如 果 在 最 底层 链表 中 找到 一 个 具有 目标 键 值 的 未 标记 结 点 ， 那 么 find( ) 返 回 true，add() 
返回 false， 表 示 这 个 键 值 已 经 在 抽象 集中 。 不 成 功 add( ) 的 可 线性 化 点 和 成 功 find( ) 的 可 线性 
化 点 相同 (第 42 行 )。 如 果 没 有 找到 结 点 ， 那 么 下 一 步 就 是 尝试 向 结构 中 添加 一 个 键 值 为 的 


结 点 。 
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36 boolean add(T x) { 

37 int topLevel = randomLevel(); 

38 int bottomLevel = 0; 

39 Node<T>[] preds = (Node<T>[]) new Node[MAX LEVEL + 1]; 

40 Node<T>[] succs = (Node<T>[]) new Node[MAX LEVEL + 1]; 

41 while (true) { 

42 boolean found = find(x, preds, succs); 

43 if (found) { 

44 return false; 

45 } else { 

46 Node<T> newNode = new Node(x, topLevel); 

47 for (int level = bottomLevel; level <= topLevel; level++) { 
48 Node<T> succ = succs[level]; 

49 newNode.next[level].set(succ, false); 

50 } 

51 Node<T> pred = preds[{bottomLevel]; 

52 Node<T> succ = succs[bottomLevel]; 

53 if (!pred.next[bottomLevel] .compareAndSet(succ, newNode, 
54 false, false)) { 
55 continue; 

56 } 

57 for (int level = bottomLevel+1; level <= topLevel; level++) { 
58 while (true) { 

59 pred = preds[level]; 

60 succ = succs[level]; 

61 if (pred.next[level].compareAndSet(succ, newNode, false, false)) 
62 break; 

63 find(x, preds, succs); 

64 

65 } 

66 return true; 

67 } 

68 } 

69 } 








图 14-11 LockFreeSkipList2&; add() 方 法 


一 个 新 结 点 以 一 个 随机 选择 的 topleve1 来 创建 。 结 点 的 next 引 用 是 未 标记 的 且 设 置 为 指 
向 由 find( ) 返 回 的 后 继 (第 46~49 行 )。 

下 一 步 就 是 尝试 添加 新 结 点 ， 将 该 结 点 链接 到 最 底层 链表 中 由 find( ) 返 回 的 preds[0] 和 
succs[0] 之 间 。 和 LockFreeList 一 样 ， 使 用 compareAndSet( ) 设 置 引 用 ,确认 这 些 结 点 之 间 仍 
然 相 互 关联 ， 且 没有 从 链表 中 删除 〈 第 54 行 )。 如 果 compareAndSet() 失 败 ， 则 说 明 发 生 了 改 
变 ， 需 要 重新 调用 该 方法 ， 如 果 成 功 ， 那 么 该 元 素 被 添加 ， 第 54 行 是 这 个 调用 的 可 线性 化 点 。 

然后 ，add( ) 方 法 在 更 高 的 层 中 链接 这 个 结 点 (第 57 行 )。 对 于 每 一 层 ， 如 果 前 驱 指 向 有 
效 的 后 继 (第 61 行 )， 则 通过 设置 前 驱 指 向 新 的 结 点 而 将 该 结 点 拼接 进来 。 如 果 成 功 ， 则 退出 
并 进入 下 一 层 ， 如 果 不 成 功 ， 则 说 明 前 驱 指向 的 结 点 已 经 被 改变 ， 因 此 重新 调用 find( ) 以 找 
到 一 个 新 的 有 效 的 前 驱 和 后 继 集 合 。 我 们 不 使 用 find( ) 调 用 的 结果 (第 63 行 )， 因 为 我 们 仅仅 
关心 在 剩 下 的 未 链接 层 中 重新 计算 假 前 驱 和 假 后 继 。 一 旦 所 有 的 层 都 被 链接 ， 该 方法 返回 true 
(第 66 行 )。 

图 14-12 中 的 remove( ) 调 用 find( ) 来 确认 一 个 具有 匹配 键 值 的 未 标记 结 点 是 否 在 最 底层 的 
链表 中 。 如 果 在 最 底层 链表 中 没有 结 点 ， 或 存在 匹配 结 点 但 它 已 被 标记 ， 该 方法 则 返回 jalse。 
不 成 功 的 remove( ) 方 法 的 可 线性 化 点 是 第 76 行 find( ) 方 法 被 调用 的 时 刻 。 如 果 一 个 未 标记 结 
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点 被 找到 ， 那 么 这 个 方法 从 抽象 集中 将 相关 键 值 逻 辑 地 删除 ， 并 为 物理 删除 做 准备 。 这 一 步 
使 用 了 假 前 驱 集 (由 find( ) 存 放 在 preds[] 中 ) 和 victim (在 succs[] 中 通过 find( ) 返 回 )。 
首先 ， 从 topleve1l 开 始 ， 通 过 不 断 读 取 next 及 其 标记 ， 并 调用 attempMark( )， 对 直到 最 底层 
的 所 有 链接 (但 不 包括 最 底层 的 链接 ) 做 上 标记 (第 82~88 行 )。 如 果 发 现 链接 是 标记 的 (或 
者 它 已 被 标记 ， 或 者 是 本 次 尝试 成 功 ) ， 将 转向 下 一 层 进行 处 理 。 否 则 ， 重 新 读 取 当 前 层 上 的 
链接 ， 因 为 它 已 被 其 他 并 行 的 线程 修改 ， 所 以 需要 重新 进行 这 次 标记 尝试 。 一 旦 除了 最 底层 
以 外 的 所 有 层 都 已 被 标记 ， 则 对 最 底层 的 next 引 用 进行 标记 。 如 果 这 个 标记 操作 (第 95 行 ) 
成 功 ， 则 是 一 次 成 功 的 remove( ) 的 可 线性 化 点 。remove( ) 方 法 尝试 使 用 compareAndSet( ) 来 
标记 next 域 。 如 果 成 功 ， 则 可 以 确定 是 该 线程 将 标记 从 false 改 为 true。 在 返回 true 之 前 ， 
find( ) 方 法 被 再 次 调用 。 这 个 调用 是 一 种 优化 行为 ， 作 为 一 种 副作用 ， 如 果 一 个 结 点 已 经 被 
逻辑 删除 ， 那 么 find( ) 将 物理 删除 所 有 指向 该 结 点 的 链接 。 




















70 boolean remove({T x) { 

71 int bottomLevel = 0; 

72 Node<T>[] preds = (Node<T>[]) new Node[MAX_LEVEL + 1]; 

73 Node<T>[] succs = (Node<T>[]) new Node[MAX LEVEL + 1]; 

74 Node<T> succ; 

75 while (true) { 

76 boolean found = find(x, preds, succs); 

77 if (!found) { 

78 return false; 

79 } else { 

80 Node<T> nodeToRemove = succs[bottomLevel]; 

81 for (int level = nodeToRemove.topLevel; 

82 level >= bottomLevel+l; level--) { 

83 boolean[] marked = {false}; 

84 succ = nodeToRemove.next[level] .get (marked) ; 

85 while (!marked[0]) { 

86 nodeToRemove.next[level] .compareAndSet(succ, succ, false, true); 
87 succ = nodeToRemove.next[level] .get (marked) ; 

88 } 

89 } 

90 boolean[] marked = {false}; 

91 succ = nodeToRemove.next[bottomLevel] .get (marked) ; 

92 while (true) { 

93 boolean iMarkedIt = 

94 nodeToRemove.next[bottomLevel] .compareAndSet(succ, succ, 
95 false, true); 
96 succ = succs[bottomLevel] .next[bottomLevel] .get (marked); 
97 if (iMarkedit) { 

98 find(x, preds, succs); 

99 return true; 

100 

101 else if (marked[0]) return false; 

102 } 

103 } 

104 } 

105 } | 














图 14-12 LockFreeSkipList2: remove() 方 法 


另 一 方面 ， 如 果 compareAndSet( ) 调 用 失败 ， 但 next 引 用 已 被 标记 ， 那 么 就 意味 着 另 一 
个 并 发 线程 删除 了 该 结 点 ， 所 以 remove( ) 返 回 false。 这 个 不 成 功 的 remove( ) 调 用 的 可 线性 化 
点 就 是 由 成 功 标 记 next 引 用 的 那个 线程 所 调用 的 remove( ) 的 可 线性 化 点 。 注 意 ， 这 个 可 线性 
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化 点 必须 出 现在 remove( ) 调 用 的 过 程 中 ， 因 为 该 find( ) 调 用 在 发 现 结 点 被 标记 之 前 ， 首 先 发 
现 它 未 被 标记 。 

最 后 ， 如 果 compareAndSet() 失 败 且 结 点 未 被 标记 ， 那 么 next 引 用 必定 已 被 并 发 地 改变 
了 。 既 然 victim 是 已 知 的 ， 就 没有 必要 再 次 调用 find( )，remove() 则 只 是 简单 地 使 用 从 next 
中 读 取 的 新 值 来 重新 尝试 这 次 标记 。 

如 上 所 述 , add( ) 方 法 和 remove( ) 方 法 都 依赖 于 find( ) 方 法 。 该 方法 搜索 LockFreeSkipList， 
当 且 仅 当 具有 目标 键 值 的 结 点 在 集合 中 返回 true。 在 每 一 层 ， 则 用 目标 结 点 的 假 前 驱 集 和 假 后 
继 集 来 填 入 数组 preds[] 和 succs[]。 该 方法 具有 以 下 两 个 属性 : 

* 它 从 不 遍历 一 个 已 标记 的 链接 。 相 反 ， 它 从 该 层 的 链表 中 删除 由 一 个 标记 的 链接 所 指向 

的 结 点 


。 每 个 preds[] 引 用 都 指向 一 个 键 值 小 于 目标 键 值 的 结 点 。 

图 14-13 中 的 find( ) 方 法 按照 如 下 方式 进行 : 它 从 head 哨 兵 (具有 人 允许 的 最 大 结 点 层 ) 的 
topleve1 开 始 遍 历 SkipList， 然 后 ， 从 上 到 下 在 每 一 层 中 进行 操作 ， 填 入 不 断 增多 的 preds 
结 点 和 succs 结 点 ， 直 到 pred 指 向 该 层 中 具有 最 大 值 的 结 点 ， 而 这 个 值 是 小 于 目标 键 值 的 (第 
117~131 行 )。 和 LockFreeList 中 一 样 ， 当 它 使 用 compareAndSet() 遇 到 被 标记 的 结 点 时 ， 不 
断 地 在 给 定 的 层 中 删除 这 些 结 点 (第 119~ 125 行 )。 注 意 ，compareAndSet( ) 确 认 前 驱 的 next 








106 boolean find(T x, Node<T>[] preds, Node<T>[] succs) { 

107 int bottomLevel = 0; 

108 int key = x.hashCode(); 

109 boolean[] marked = {false}; 

110 boolean snip; 

111 Node<T> pred = null, curr = null, succ = null; 

112 retry: 

113 while (true) { 

114 pred = head; 

115 for (int level = MAX LEVEL; level >= bottomLevel; level--) { 
116 curr = pred.next[level].getReference(); 

117 while (true) { 

118 succ = curr.next[level] .get (marked) ; 

119 while (marked[0]) { 

120 snip = pred.next[level].compareAndSet(curr, succ, 
121 false, false); 
122 if (!snip) continue retry; 

123 curr = pred.next[level] .getReference(); 

124 succ = curr.next[level] .get (marked) ; 

125 } 

126 if (curr.key < key) { 

127 pred = curr; curr = succ; 

128 } else { 

129 break; 

130 } 

131 } 

132 preds[level] = pred; 

133 succs[level] = curr; 

134 





135 return (curr.key == key); 
136 } 
137 } 


图 14-13 LockFreeSkipList2&; 比 LazySkipList 中 更 复杂 的 find( ) 方 法 
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域 指向 当前 结 点 。 一 旦 找到 一 个 未 标记 的 curr (第 126 行 )， 就 要 检查 其 键 值 是 否 小 于 目标 键 
值 。 如 果 是 ， 则 pred 先 于 curr， 否 则 ，curr 的 键 值 就 大 于 或 等 于 目标 键 值 ， 所 以 当前 pred 值 
就 是 目标 结 点 的 直接 前 驱 。find( ) 方 法 跳出 当前 层 的 查找 循环 ， 保 存 当 前 的 pred 值 和 curr 值 
(第 132 行 )。 

find( ) 方 法 在 到 达 最 底层 时 才 会 停止 这 些 操 作 。 有 一 点 很 重要 : 每 层 的 遍历 都 具有 前 面 
提 到 的 两 种 特性 ， 特 别 是 ， 如 果 一 个 具有 目标 键 值 的 结 点 在 链表 中 ， 即 使 它 在 高 层 链表 中 已 
经 被 删除 ， 也 能 在 最 底层 的 链表 中 查找 到 。 当 遍历 停止 时 ，pred 指 向 目标 结 点 的 前 驱 。 该 方 
法 由 上 至 下 遍历 每 一 层 而 不 会 跳 过 目标 结 点 。 如 果 该 结 点 在 链表 中 ， 那 么 会 在 最 底层 的 链表 
中 找到 。 另 外 ， 如 果 这 个 结 点 被 找到 ， 那 么 它 不 能 被 标记 ， 因 为 它 是 已 标记 的 ， 可 能 会 在 第 
119~ 125 行 中 被 去 除 。 因 此 ， 第 135 行 的 测试 只 需 检 查 curr 的 键 值 是 否 等 于 目标 键 值 ， 以 便 确 
定 目 标 键 值 是 否 在 集合 中 。 

成 功 或 不 成 功 的 find( ) 调 用 的 可 线性 化 点 都 出 现在 最 底层 链表 的 curr 引 用 被 设置 的 时 刻 ， 
也 就 是 在 第 116 行 或 第 123 行 ， 这 取决 于 在 第 136 行 决定 find( ) 调 用 成 功 与 否 之 前 的 最 后 时 刻 。 
图 14-9 显 示 了 一 个 结 点 是 如 何 被 成 功 地 添加 到 LockFreeSkipList 中 去 的 。 

图 14-14 是 无 等 待 的 contains( ) 方 法 。 它 采用 了 与 find( ) 方 法 一 样 的 方式 遍历 SkipList， 
从 head 开 始 逐 层 下 降 。 和 find( ) 方 法 一 样 ，contains() 忽 略 已 标记 结 点 的 键 值 。 与 find( ) 不 
同 之 处 是 ， 它 并 不 尝试 删除 已 标记 的 结 点 ， 而 只 是 简单 地 跳 过 它们 (第 147~150 行 )。 图 14-15 
中 给 出 了 一 次 执行 实例 。 


boolean contains(T x) { 




























139 int bottomLevel = 0; 

140 int v = x.hashCode(); 

141 boolean[] marked = {false}; 

142 Node<T> pred = head, curr = null, succ = null; 
143 for (int level = MAX LEVEL; level >= bottomLevel; level--) { 
144 curr = curr.next[level] .getReference(); 

145 while (true) { 

146 succ = curr.next[level].get (marked) ; 

147 while (marked[0]) { 

148 curr = pred.next[level] .getReference(); 
149 succ = curr.next[level] .get (marked) ; 

150 } 

151 if (curr.key < v){ 

152 pred = curr; 

153 curr = Succ; 

154 } else { 

155 break; 

156 } 

157 } 

158 } 


return (curr.key == v); 


图 14-14 LockFreeSkipList#; 无 等 待 的 contains( ) 方 法 


这 个 方法 是 正确 的 ， 因 为 contains( ) 保 持 了 和 find( ) 一 样 的 特性 ， 在 它们 之 中 ， 任 何 层 
的 pred 决 不 会 指向 一 个 未 标记 的 、 键 值 大 于 或 等 于 目标 键 值 的 结 点 。pred 变 量 总 是 在 最 底层 
链表 上 到 达 目 标 结 点 前 面 的 一 个 结 点 。 如 果 该 结 点 在 contains( ) 调 用 开始 之 前 就 添加 到 链表 
中 ， 那 么 它 将 被 找到 。 另 外 ， 回 顾 add( ) 调 用 find( ) 的 情形 ， 在 添加 新 结 点 之 前 ， 它 将 已 标记 


250 第 二 部 分 实 践 


结 点 从 最 底层 链表 中 断 开 。 由 此 可 知 ， 如 果 contains() 没 有 找到 指定 的 结 点 ， 或 者 在 最 底层 
找到 该 结 点 但 它 已 被 标记 ， 那 么 所 有 并 发 添加 的 、 未 被 发 现 的 结 点 必定 在 contains( ) 调 用 开 
始 之 后 添加 到 最 底层 ， 所 以 在 第 159 行 返回 false 是 正确 的 。 

A: contains (18) 返回 true 





























T 
| 
B: remove(9) C: remove(15) 
图 14-15 线程 4 调用 contains(18)， 它 从 head 结 点 的 顶层 开始 遍历 链表 。 粗 点 线 标记 了 通过 
pred 域 进行 的 遍历 ， 细 点 线 标记 了 curr 域 的 路 径 。curr 域 在 第 3 层 上 被 推进 到 tai1。 
由 于 它 的 键 值 比 18 大 ，pred 下 降 到 第 2 层 。curr 域 推进 ， 在 键 值 为 9 的 结 点 中 经 过 被 
标记 的 引用 ， 再 次 到 达 tail ( 它 大 于 18)， 所 以 pred 下 降 到 第 1 层 。 在 这 里 ，pred 被 
推进 到 键 值 为 5 的 未 标记 结 点 上 ，curr 经 过 键 值 为 9 的 已 标记 结 点 ， 到 达 键 值 为 18 的 
未 标记 结 点 ， 在 这 个 点 上 ，curr 不 再 继续 推进 了 。 虽 然 18 是 目标 键 值 ， 该 方法 仍然 
继续 降低 pred 直 到 最 底层 ， 将 pred 推 进 到 键 值 为 8 的 结 点 上 。 从 这 个 点 开始 ，curr 遍 
历经 过 了 已 标记 结 点 9、15 和 11， 它 们 的 键 值 都 小 于 18。 最 终 ，curr 到 达 键 值 为 18 的 
未 标记 结 点 ， 返 回 true 
图 14-16 描 述 了 contains() 方 法 的 一 次 执行 过 程 。 在 a 中 ， contains(18) 调 用 从 head 结 点 
的 顶层 开始 遍历 链表 。 在 b 中 ，contains(18) 调 用 在 键 值 为 18 的 结 点 被 逻辑 删除 后 遍历 链表 。 











E: add(18) 













































































Le] (9) (et) ns Gey is] h 4 [2] [e 
B: remove(9) D: remove(18) B: remove(9) 
B: remove(15) 













a) A: contains (18) 遍 历 b) A: contains (18) 返 回 false 


图 14-16 LockFreeSkipList2é; 一 次 contains( ) 调 用 。 在 a 中 ， contains(18) 从 head 的 顶层 
开始 遍历 链表 。 点 线 标记 了 通过 pred 域 进行 的 遍历 。pred 域 最 终 在 最 底层 到 达 了 结 
点 8。 从 这 个 点 开始 ， 我 们 也 用 点 线 描述 了 curr 的 路 径 。curr 遍 历经 过 结 点 9 到 达 已 
标记 结 点 15。 在 b 中 ， 一 个 键 值 为 18 的 新 结 点 被 线程 E 添 加 到 链表 中 。 线 程 E， 作为 
其 find(18) 调 用 的 一 部 分 ， 物 理 地 删除 键 值 为 "9、15 和 18 的 老 结 点 。 现 在 ， 线 程 4 从 
被 删除 的 键 值 为 15 的 结 点 开始 ， 继 续 以 curr 域 进行 遍历 (由 于 结 点 15 和 18 对 于 线程 4 
是 可 达 的 ， 所 以 它们 不 是 重复 循环 的 ) 。 线 程 4 到 达 键 值 为 25 的 结 点 ( 比 18 大 )， 返 回 
false。 即 使 在 这 个 点 上 ， 在 LockFreeSkipList 中 存在 一 个 键 值 为 18 的 未 标记 结 点 ， 
该 结 点 也 是 被 E 在 4 遍历 的 同时 插入 的 ， 并 且 在 4 的 add(18) 之 后 是 可 线性 化 的 
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14.5 并 发 跳 表 


我 们 已 经 介绍 了 两 种 高 度 并 发 的 SkipList 实 现 ， 每 一 种 都 支持 对 数 级 的 查找 ， 而 无 需 再 
次 平衡 。 在 LazySkipList 类 中 ，add() 和 remove( ) 方 法 采用 优化 的 细 粒 度 上 锁 方式 ， 这 意味 
着 该 方法 无 需 上 锁 就 能 查找 其 目标 结 点 ， 仅 当 发 现 目标 结 点 时 才 获 取 锁 并 验证 。 最 常用 的 
contains() 方 法 是 无 等 待 的 。 在 LockFreeSkipList 类 中 ，add() 和 remove( ) 方 法 是 无 锁 的 ， 
并 建立 在 第 9 章 的 LockFreeList 类 基础 之 上 。contains( ) 方 法 也 在 这 个 类 中 ， 是 无 等 待 的 。 

在 第 15 章 中 ， 将 会 看 到 如 何在 本 章 中 描述 的 并 发 SkipList 基 础 之 上 ， 构 建 高 度 并 发 的 优 
先 级 队列 。 


14.6 本 章 注释 


Bill Pugh 发 明了 顺序 [128] 和 并 发 [127] 的 跳 表 。LazySkipList 是 由 Yossi Lev, Maurice 
Herlihy, Victor Luchangco 和 Nir Shavit[103] 提 出 的 。 本 章 的 LockFreeSkipList 是 由 Maurice 
Herlihy, Yossi Lev 和 Nir Shavit[64] 发 明 的 。 它 部 分 基于 早先 由 Kier Fraser[42] 发 明 的 无 锁 
SkipList 算 法 ， 其 一 种 变化 方式 被 Doug Lea[100] 封 装 到 Java 并 发 包 中 。 


14.7 习题 


习题 163. 回顾 跳 表 是 一 个 概率 数据 结构 。 尽 管 contains( ) 调 用 的 期 望 性 能 为 O(log n)， 其 中 n 是 链 
表 中 元 素 的 个 数 ， 但 最 坏 情形 的 性 能 可 能 为 0(n)。 试 给 出 具有 8 个 元 素 的 跳 表 在 最 坏 情 形 下 的 图 
示 ， 并 说 明 为 什么 是 这 样 的 。 

习题 164. 已 知 一 个 跳 表 的 概率 为 p，MAX_LEVEL 为 M。 如 果 该 链表 包含 N 个 结 点 ， 那 么 从 0 到 M 一 1 的 
每 个 层 上 ， 期 望 的 结 点 数 分 别 是 多 少 ? 

习题 165. 修改 LazySkipList 类 ， 使 得 在 该 结构 中 ，find( ) 从 最 高 的 结 点 开始 ， 而 不 是 可 能 的 最 高 
JB (MAX_LEVEL ) 。 

习题 166. 修改 LazySkipList 以 支持 多 个 元 素 具 有 相同 的 键 值 。 

习题 167. 假设 我 们 修改 了 LockFreeSkipList 类 ， 使 得 图 14-12 的 第 101 行 中 ，remove( ) 不 是 返回 
Jalse， 而 是 重新 开始 主 循环 。 

该 算法 还 正确 吗 ? 阐述 安全 性 和 活性 问题 。 也 就 是 说 ， 不 成 功 的 remove( ) 调 用 的 新 的 可 线 
性 化 点 是 什么 ? 这 个 类 还 是 无 锁 的 吗 ? 

习题 168. 试 说 明 在 LockFreeSkipList 类 中 ， 一 个 结 点 将 怎样 在 链表 中 层 0 和 2 上 结束 ， 但 不 会 在 层 
1 上 结束 。 画 出 示意 图 。 

习题 169. 修改 LockFreeSkipList 类 ， 使 得 find( ) 方 法 使 用 单个 compareAndSet( ) 来 断 开 已 标记 结 
点 的 序列 。 试 说 明 你 的 实现 为 何不 能 删除 一 个 并 发 插入 的 未 标记 结 点 。 

习题 170. 如 果 最 底层 已 被 链接 ， 然 后 将 其 他 所 有 层 以 任意 次 序 链接 ， 那 么 LockFreeSkipList 的 
add( ) 方 法 还 能 正常 工作 吗 ? 如 果 最 底层 的 next 引 用 最 后 标记 ， 但 其 他 所 有 层 的 引用 都 以 任意 次 
序 标记 ， 那 么 remove( ) 方 法 中 对 next 引 用 的 标记 是 否 还 是 正确 的 ? 

习题 171. (难度 较 大 ) 试 修改 LazySkipList， 使 得 每 个 层 上 的 链表 都 是 双向 的 ， 并 允许 线程 从 
head 或 者 tail 遍 历 都 能 并 行 地 添加 和 删除 元 素 。 

习题 172. 图 14-17 描 述 了 LockFreeSkipList 类 的 一 个 错误 的 contains() 方 法 。 试 给 出 该 方法 返回 
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错误 值 的 一 种 场景 。 提 示 : 该 方法 出 错 的 原因 是 它 考 虑 了 已 删除 结 点 的 键 值 。 





CON BDH P WHE 


boolean contains(T x) { 
int bottomLevel = 0; 
int key = x.hashCode(); 
Node<T> pred = head; 
Node<T> curr = null; 
for (int level = MAX_LEVEL; level >= bottomLevel; level--) { 
curr = pred.next[level] .getReference(); 
while (curr.key < key ) { 
pred = curr; 
curr = pred.next[level] .getReference(); 
} 
} 


return curr.key == key; 





图 14-17 LockFree SkipList 类 : 一 个 错误 的 contains() 





BIST 


The Art of Multiprocessor Programming (Revised First Edition) 


优先 级 队列 


优先 级 队列 是 元 素 的 多 重 集 ， 其 中 ， 每 个 元 素 都 有 一 个 相关 的 优先 级 ， 它 是 表示 该 元 素 
重要 性 的 一 个 数值 〈 按 惯例 ， 越 小 的 数字 说 明 越 重 要 ， 表 示 更 高 的 优先 级 ) 。 优 先 级 队列 通常 
提供 向 集合 中 加 入 元 素 的 add( ) 方 法 ， 删 除 并 返回 最 小 值 ( 即 最 高 优先 级 ) 元 素 的 
removeMin( ) 方 法 。 从 高 层 应 用 程序 直到 底层 操作 系统 内 核 ， 都 要 使 用 优先 级 队列 。 

有 有 界 范 围 的 优先 级 队列 是 一 种 每 个 元 素 的 优先 数 都 取 自 一 个 元 素 离散 集 的 优先 级 队列 ， 而 
在 无 界 范围 的 优先 级 队列 中 ， 优 先 数 则 来 自 一 个 很 大 的 








KA, ANSIA, EEE, AAE 。 | P a ce e aard; 
围 的 优先 级 队列 往往 更 加 有 效 ， 但 很 多 应 用 却 要 求 无 界 T removeMin() ; 
范围 的 优先 级 队列 。 图 15-1 给 出 了 优先 级 队列 的 接口 。 } 

并 发 优先 级 队列 图 15-1 优先 级 队列 的 接口 


在 集合 的 并 发 操作 中 ，add( ) 方 法 和 removeMin( ) 方 法 的 调用 可 以 相互 重 琶 ， 那 么 ， 一 个 
元 素 在 集合 中 到 底 意味 着 什么 ? 

这 里 ， 我 们 考虑 两 种 在 第 3 章 已 介绍 的 一 致 性 条 件 : 第 一 种 是 可 线性 化 性 ， 它 要 求 每 个 方 
法 调用 都 看 似 是 在 它 的 调用 和 响应 之 间 的 某 个 瞬间 生效 的 ， 第 二 种 是 静态 一 致 性 ， 这 是 一 个 
相对 较 弱 的 条 件 ， 要 求 在 每 次 执行 过 程 中 ， 在 任 一 时 刻 ， 如 果 没 有 额外 的 方法 调用 ， 那 么 当 
所 有 待 处 理 的 方法 调用 完成 之 后 ， 它 们 返回 的 值 要 与 该 对 象 的 某 次 正确 的 顺序 执行 相 一 致 。 
如 采 应 用 不 要 求 它 的 优先 级 队列 是 可 线性 化 的 ， 那 么 让 它们 具有 静态 一 致 性 往往 会 更 加 有 效 。 
对 于 特定 的 应 用 需要 认真 考虑 ， 以 选择 正确 的 途径 。 


15.2 基于 数组 的 有 界 优先 级 队列 


如 果 一 个 有 界 范围 优先 级 队列 的 优先 数 取 自 0，…，m 一 1， 那 么 它 的 范围 是 m。 现 在 ， 我 
们 考虑 采用 两 个 成 员 数 据 结 构 的 有 界 优先 级 队列 算法 : Counter 和 Bin。Counter ( 见 第 12 章 ) 
具有 一 个 整数 值 ， 提 供 getAndIncrement( ) 和 getAndDecrement() 方 法 原子 地 增加 和 减少 计数 
器 的 值 ， 并 返回 该 计数 器 的 先前 值 。 这 些 方 法 可 以 随意 地 限界 ， 也 就 是 说 ， 它 们 不 能 使 计数 
器 的 值 超出 某 个 特定 界限 。 

Bin 是 一 个 具有 任意 元 素 的 池 ， 提 供 put(x) 方 法 插入 一 个 元 素 x， 用 get( ) 方 法 删除 并 返回 
一 个 元 素 ， 若 该 池 为 空 ， 则 返回 null。 可 以 使 用 锁 或 以 无 锁 方式 利用 第 11 章 的 栈 算 法 来 实现 池 。 

图 15-2 为 SimpleLinear 类 ， 它 维护 着 一 个 由 池 组 成 的 数组 。 若 要 增加 一 个 优先 数 为 i 的 元 
素 ， 线 程 只 需 简单 地 将 这 个 元 素 放 入 第 i 个 池 中 。removeMin( ) 方 法 按照 优先 级 递减 的 顺序 扫 
描 这 些 池 ， 并 返回 第 一 个 成 功 删 除 的 元 素 。 如 果 没 有 找到 元 素 ， 则 返回 nul1。 如 果 这 些 池 是 可 
线性 化 的 ， 那 么 SimpleLinear 也 是 可 线性 化 的 。 如 果 这 些 Bin 的 方法 是 无 锁 的 ， 那 么 add( ) 和 
removeMin( ) 方 法 也 是 无 锁 的 。 


Ww 
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1 public class SimpleLinear<T> implements PQueue<T> { 
2 int range; 

3 Bin<T>[] pqueue; 

4 public SimpleLinear(int myRange) { 

5 range = myRange; 

6 pqueue = (Bin<T>[])new Bin[range]; 

7 for (int i = 0; i < pqueue. length; i++) { 

8 pqueue[i] = new Bin(); 


9 

10 } 

Ti public void add(T item, int key) { 
12 pqueue[key] .put (item) ; 

13 } 

14 public T removeMin() { 

15 for (int i = 0; i < range; i++) { 
16 T item = pqueue[i].get(); 

17 if (item != null) { 

18 return item; 

19 } 

20 } 

21 return null; 








图 15-2 SimpleLinear2&; add() 和 removeMin( ) 方 法 


15.3 基于 树 的 有 界 优先 级 队列 
SimpleTree (图 15-3) 是 一 种 静态 一 致 的 无 锁 有 界 范围 优先 级 队列 。 它 是 一 个 二 又 树 


B:removeMin() 











A:add(a,2) D:add(d,4) 
a b 


B:removeMin() C:removeMin() 
) iD) 
> 




















A:add(a,2) D:add(d,3) 
c) d) 


图 15-3 SimpleTree 优 先 级 队列 是 一 个 由 有 界 计数 器 组 成 的 树 。 所 有 元 素 都 在 叶 结 点 的 池 中 。 内 部 
结 点 都 有 该 结 点 左 子 树 中 所 包含 元 素 的 个 数 。 在 a 中 ,线程 A4 和 D 通 过 向 上 遍历 树 来 增加 元 
素 ， 当 它们 从 左 向 上 遍历 时 ， 增 加 结 点 中 的 计数 器 值 。 线 程 8 跟 随 计数 器 向 下 遍历 树 ， 如 果 
计数 器 是 非 零 值 ， 则 从 左 向 下 移动 (没有 给 出 8 的 递减 效果 )。 在 b、c 和 d 中 ， 描 述 了 并 发 线 
程 4 和 8B 在 标 有 “*” 的 结 点 上 相遇 的 执行 序列 。 在 b 中 ， 线 程 D 添 加 4， 然 后 4 添加 a 并 向 上 到 
达 带 有 星 号 的 结 点 处 , 沿 着 路 径 增 加 了 一 个 计数 器 。 在 c 中 ，B 向 下 遍历 树 ， 将 计数 器 减 为 0， 
并 弹出 a。 在 d 中 ，A4 继 续 上 升 ， 即 使 B 已 经 从 带 “*” 的 结 点 向 下 删除 了 a 的 所 有 痕迹 ， Ath 
增加 根 结 点 处 的 计数 器 。 然 而 ， 一 切 都 很 正常 ， 因 为 根 结 点 的 非 0 计 数 器 能 正确 地 将 C 引 导 
至 具有 最 高 优先 级 的 元 素 4 处 
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(图 15-4) ， 由 treeNode 对 象 (图 15-5) 组 成 。 如 图 15-3 所 示 ， 该 树 具 有 m 个 叶 结 点 ， 其 中 第 i 
个 叶 结 点 有 一 个 包含 优先 数 为 的 元 素 的 池 。 在 树 的 内 部 结 点 中 ， 有 m 一 1 个 有 界 共享 计数 器 ， 
用 于 记录 以 每 个 结 点 的 左 〈 低 优先 数 /高 优先 级 ) 孩子 为 根 的 子 树 中 所 包含 的 元 素 的 个 数 。 





public class SimpleTree<T> implements PQueue<T> { 














i 

2 int range; 

3 List<TreeNode> leaves; 

4 TreeNode root; 

5 public SimpleTree(int logRange) { 

6 range = (1 << logRange); 

7 leaves = new ArrayList<TreeNode>(range); 
8 root = buildTree(logRange, 0); 

9 } 

10 public void add(T item, int score) { 
11 TreeNode node = leaves.get(score); 
12 node.bin.put (item); 

13 while(node != root) { 

14 TreeNode parent = node.parent; 
15 if (node == parent.left) { 

16 parent.counter.getAndIncrement(); 
17 } 

18 node = parent; 

19 } 

20 } 
21 public T removeMin() { 

22 TreeNode node = root; 

23 while(!node.isLeaf()) { 

24 if (node.counter.boundedGetAndDecrement() > 0 ) { 
25 node = node. left; 

26 } else { 

27 node = node.right; 

28 } 
29 } 

30 return node.bin.get(); 

31 } 

32 } 





图 15-4 SimpleTree 有 界 范围 优先 级 队列 


add(x, 有 ) 调 用 将 x 添加 到 第 k 个 叶 结 点 的 池 中 ， 
并 按照 由 叶子 到 根 的 顺序 增加 结 点 的 计数 器 。 
removeMin( ) 方 法 按照 由 根 到 叶子 的 顺序 遍历 树 。 
从 根 开始 ， 查 找 具 有 最 高 优先 级 且 其 池 不 为 空 的 
树叶 。 它 检查 每 个 结 点 的 计数 器 ， 如 果 为 0 则 向 右 
和 移动， 否则， 减少 计数 器 并 向 左 移动 (第 24 行 )。 

线程 4 向 上 进行 的 add( ) 调 用 可 能 会 遇 到 线 
程 B8 向 下 执行 的 removeMin( ) 调 用 。 与 Hansel 和 


public class TreeNode { 
Counter counter; 
TreeNode parent, right, left; 
Bin<T> bin; 


public boolean isLeaf() { 
return right == null; 
} 
} 





图 15-5 SimpleTree 类 : 内 部 的 treeNode 类 


Gretel 的 算法 一 样 ， 向 下 的 线程 根据 上 升 的 add( ) 所 留 下 的 非 零 计数 器 的 痕迹 ， 来 确定 并 从 
其 池 中 删除 A 的 元 素 。 图 15-3 中 的 a 描述 了 SimpleTree 的 一 个 执行 实例 。 

有 可 能 会 担心 出 现下 面 的 “格林 童话 ”场景 。 如 图 15-3 所 示 ， 线 程 4 向 上 移动 ， 在 标 有 星 
号 的 结 点 处 过 到 向 下 移动 的 线程 了 8。 线程 B 从 该 结 点 向 下 移动 ， 收 集 4 在 树叶 处 的 元 素 ， 同 时 ， 
A 继续 向 上 ， 增 加 计数 器 直到 到 达 根 结 点 为 止 。 如 果 另 一 个 线程 C 开 始 跟随 A 的 非 零 计 数 器 路 
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径 ， 从 根 开 始 向 下 移动 到 4 和 B 相 过 的 星 号 结 点 ， 将 会 出 现 什么 情况 ?” 当 C 到 达 该 星 号 结 点 时 ， 
有 可 能 被 困 在 树 的 中 间 的 这 个 地 方 ， 它 发 现 从 右 孩 子 到 达 一 个 空 的 Bin 没 有 能 够 追寻 的 标记 ， 
即使 在 队列 中 可 能 存在 其 他 的 元 素 。 

幸运 的 是 ， 这 种 场景 不 会 发 生 。 如 图 15-3b 至 d 所 示 ， 向 下 的 线程 B 在 星 号 结 点 处 与 向 上 的 
线程 A 相遇 的 唯一 途径 就 是 ， 由 一 个 更 早 的 线程 D 调 用 的 另外 一 个 add( ) 从 星 号 结 点 到 根 增加 
了 同一 个 计数 器 集合 ， 才 允许 向 下 的 线程 8 首先 到 达 星 号 结 点 。 向 上 的 线程 4 从 星 号 结 点 到 根 
结 点 增加 计数 器 时 , 只 是 简单 地 完成 了 通 向 由 某 个 其 他 的 线程 D 所 插入 元 素 的 递增 序列 。 总之， 
如 果 在 第 24 行 某 些 线程 返回 的 元 素 为 ax1， 那 么 优先 级 队列 的 确 是 空 的 。 

Simp1eTree 算 法 是 不 可 线性 化 的 ， 因 为 线程 之 间 有 可 能 相互 追赶 ， 但 它 是 静态 一 致 的 。 
如 果 所 有 的 池 和 计数 器 是 无 锁 的 ， 那 么 add( ) 和 removeMin( ) 方 法 也 是 无 锁 的 (add( ) 所 需 的 
操作 步 数 目 受 限于 树 的 深度 ， 只 有 当 不 断 地 从 树 中 添加 和 删除 元 素 时 ，removeMin( ) 才 可 能 无 
法 完成 )。 一 次 典型 的 插入 或 删除 操作 需要 最 低 优先 级 (最 大 的 分 数 ) 的 对 数 个 操作 步 。 


15.4 基于 堆 的 无 界 优先 级 队列 


本 节 介 绍 一 种 可 线性 化 的 优先 级 队列 ， 其 优先 数 取 自 一 个 无 界 的 范围 。 该 队列 采用 细 粒 
度 上 锁 进 行 同 步 。 

堆 是 一 种 每 个 结 点 都 包含 一 个 元 素 和 一 个 优先 数 的 树 。 如 果 b 是 a 的 骇 子 结 点 ， 那 么 b 的 优 
先 级 不 大 于 a 的 优先 级 (也 就 是 说 ， 树 中 越 高 的 元 素 具 有 越 低 的 优先 数值 和 越 高 的 优先 级 ) 。 
removeMin( ) 方 法 删除 并 返回 树 的 根 ， 然 后 重新 平衡 根 的 子 树 。 这 里 ， 我 们 只 考虑 二 又 树 ， 它 
仅 有 两 个 子 树 需 要 重新 平衡 。 


15.4.1 顺序 堆 


图 15-6 和 图 15-7 是 顺序 堆 的 一 种 实现 。 描 述 二 叉 堆 的 一 种 有 效 方式 就 是 将 其 看 作 是 由 结 点 
组 成 的 数组 ， 其 中 ， 树 的 根 是 数组 项 1， 而 数组 项 ;的 右 孩 子 和 左 孩 子 分 别 为 2 i2: i) + 1, 
next 域 则 为 第 一 个 未 使 用 结 点 的 索引 。 

每 个 结 点 有 一 个 item 域 和 一 个 score 域 。 为 了 增加 一 个 元 素 ，add( ) 方 法 将 chi1d 设 为 第 
一 个 空 数组 槽 的 索引 (第 13 行 )。 (为 简单 起 见 ， 我 们 省 略 了 重新 调整 满 数 组 大 小 的 那 部 分 代 
码 。) 然后 ， 初 始 化 这 个 结 点 ,使 其 具有 新 元 素 和 优先 数 (第 14 行 )。 此 时 ， 堆 的 性 质 有 可 能 
破坏 ， 因 为 这 个 新 结 点 为 树 的 一 个 叶 结 点 ， 却 可 能 具有 比 祖先 结 点 更 高 的 优先 级 〈 较 小 的 优 
先 数 )。 为 了 恢复 堆 的 性 质 ， 这 个 新 结 点 “向 上 过 滤 ” 树 。 不 断 地 比较 新 结 点 和 其 父 结 点 的 优 
先 级 ， 如 果 父 结 点 的 优先 级 低 ( 较 大 的 优先 数 )， 则 相互 交换 。 如 果 遇 到 一 个 更 高 优先 级 的 父 
结 点 ， 或 已 到 达 根 结 点 ， 那 么 该 新 结 点 就 找到 正确 的 位 置 ， 方 法 返回 。 

为 了 删除 并 返回 最 高 优先 级 的 元 素 ，removeMin( ) 方 法 记录 根 的 元 素 ， 也 就 是 树 中 具有 最 
高 优先 级 的 元 素 。 (为 简单 起 见 ， 我 们 省 略 了 处 理 空 堆 的 那 部 分 代码 。) 然后 ， 它 将 一 个 叶子 
WE Li, BH (第 27 ~29 行 )。 如 果树 为 空 ， 则 方法 返回 记录 的 元 素 (3047). T 
则 ， 堆 的 特性 有 可 能 破坏 ， 因 为 最 近 被 推 到 根 上 的 叶 结 点 可 能 具有 比 它 的 某 些 子孙 结 点 更 低 
的 优先 级 。 为 了 恢复 堆 的 性 质 ， 新 的 根 “ 向 下 过 滤 ” 树 。 如 果 两 个 孩子 都 为 空 ， 则 结束 (第 
37 行 )。 如 果 右 孩子 为 空 ， 或 者 右 孩 子 的 优先 级 比 左 孩子 低 ， 则 检查 左 孩 子 (第 39 行 )。 否 则 ， 
就 检查 右 孩 子 (第 41 行 )。 如 果 这 个 孩子 的 优先 级 比 父 结 点 高 ， 则 交换 孩子 结 点 和 父 结 点 ， 并 
继续 向 下 移动 (第 44 行 )。 当 两 个 孩子 都 具有 更 低 的 优先 级 ， 或 者 到 达 了 一 个 叶 结 点 时 ， 该 置 
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换 结 点 就 找到 了 正确 的 位 置 ， 方 法 返回 。 











1 public class SequentialHeap<T> implements PQueue<T> { 
2 private static final int ROOT = 1; 

3 int next; 

4 HeapNode<T>[] heap; 

5 public SequentialHeap(int capacity) { 

6 next = ROOT; 

7 heap = (HeapNode<T>[]) new HeapNode[capacity + 1]; 
8 for (int i = 0; i < capacity + 1; i++) { 

9 heap[i] = new HeapNode<T>(); 

10 

11 } 

12 public void add(T item, int score) { 

13 int child = next++; 

14 heap[child].init(item, score); 

15 while (child > ROOT) { 

16 int parent = child / 2; 

17 int oldChild = child; 

18 if (heap[child] .score < heap[parent].score) { 
19 swap(child, parent); 

20 child = parent; 

21 } else { 

22 return; 

23 } 

24 } 

25 } 





图 15-6 SequentialHeap 类 : 内 部 结 点 类 和 add( ) 方 法 



















public T removeMin() { 















27 int bottom = --next; 

28 T item = heap[ROOT] .item; 

29 heap[ROOT] = heap[bottom] ; 

30 if (bottom == ROOT) { 

31 return item; 

32 } 

33 int child = 0; 

34 int parent = ROOT; 

35 while (parent < heap.length / 2) { 

36 int left = parent * 2; int right = (parent * 2) + 1; 
37 if (left >= next) { 

38 return item; 

39 } else if (right >= next || heap[left].score < heap[right].score) { 
40 child = left; 

41 } else { 

42 child = right; 

43 } 

44 if (heap[child].score < heap[parent].score) { 
45 swap(parent, child); 

46 parent = child; 

47 } else { 

48 return item; 

49 } 

50 } 

51 return item; 







} 


图 15-7 SequentialHeap 类 : removeMin( ) 方 法 
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15.4.2 并 发 堆 


简介 

FineGrainedHeap 类 基本 上 是 SequentialHeap 类 的 一 种 并 发 版 本 。 和 顺序 堆 一 样 ，add() 
创建 一 个 新 的 叶 结 点 ， 并 在 树 中 向 上 过 滤 这 个 结 点 ， 直 到 堆 的 性 质 被 恢复 为 止 。 为 了 允许 并 
发 调用 以 实现 并 行 推进 ，FineGrainedHeap 类 将 元 素 的 向 上 过 滤 看 作 是 一 个 离散 的 原子 操作 
步 的 序列 ， 它 可 以 与 其 他 的 操作 步 相互 交叉 执行 。 同 样 ，removeMin( ) 方 法 删除 根 结 点 ， 将 一 
个 叶 结 点 移 到 根部 ， 并 向 下 过 滤 这 个 结 点 ， 直 到 堆 的 性 质 被 恢复 为 止 。FineGrainedHeap 类 
将 元 素 的 向 下 过 滤 看 作 是 一 个 离散 的 、 可 以 与 其 他 同类 操作 步 相互 交叉 的 原子 操作 步 的 序列 。 

详细 介绍 

警告 : 下 面 的 代码 不 考虑 堆 的 上 溢 处 理 (在 堆 满 时 增加 一 个 元 素 ) FOP Ah BH ( 堆 空 时 
删除 一 个 元 素 ) 。 这 些 情况 的 处 理会 使 代码 变 长 ， 却 不 增加 任何 乐趣 。 

该 类 使 用 heapLock 域 对 两 个 或 更 多 的 域 做 简短 的 原子 修改 (图 15-8)。 








1 public class FineGrainedHeap<T> implements PQueue<T> { 
2 private static int ROOT = 1; 

3 private static int NO ONE = -1; 

4 private Lock heapLock; 

5 int next; 

6 HeapNode<T>[] heap; 

7 public FineGrainedHeap(int capacity) { 

8 heapLock = new ReentrantLock(); 


9 next = ROOT; 

10 heap = (HeapNode<T>[]) new HeapNode[capacity + 1]; 
11 for (int i = 0; i < capacity + 1; i++) { 

12 heap[i] = new HeapNode<T>(); 

13 } 

14 } 











图 15-8 FineGrainedHeap2e; ik 


HeapNode 类 (图 15-9) 提供 下 面 这 些 域 。1ock 域 是 进行 短暂 修改 时 需要 获得 的 锁 (第 21 
行 )， 向 下 过 滤 结 点 时 也 要 使 用 。 为 简 音 起见， 该 类 提供 1ock( ) 和 un1ock() 方 法 直接 对 结 点 
进行 加 锁 和 释放 锁 。tag 域 可 以 是 下 面 状 态 中 的 一 个 : EMPTY 意 味 着 结 点 未 使 用 ，AVAILABLE 
意味 着 结 点 有 一 个 元 素 和 一 个 优先 数 ，BUSY 意 味 着 正在 向 上 过 滤 结 点 ， 还 未 到 达 正 确 的 位 置 。 
当 结 点 处 于 BUSY 状 态 时 ，owner 域 存放 负责 移动 该 结 点 的 线程 的 ID 。 为 简单 起 见 ， 该 类 提供 一 
个 am0wner 方 法 ， 当 且 仅 当 结 点 的 tag 为 BUSY 且 owner 是 当前 线程 的 时 候 ， 才 返回 truwe。 

持 有 锁 而 向 下 过 滤 的 removeMin( ) 方 法 和 tag 域 被 设 为 BUSY 而 向 上 过 滤 的 add( ) 方 法 (图 
15-10) 之 间 在 同步 上 的 不 对 称 性 ， 能 够 确保 如 果 一 个 removeMin() 调 用 遇 到 一 个 正 处 于 被 
add( ) 调 用 引导 着 向 上 移动 的 过 程 中 的 结 点 ， 则 该 removeMin( ) 调 用 不 会 被 延迟 。 结 果 是 ， 
add( ) 调 用 必须 准备 好 将 它 的 结 点 从 下 面 换 出 。 如 果 该 结 点 消失 ，add( ) 只 需 简 单 地 在 树 中 上 
移 。 可 以 肯定 ， 会 在 当前 位 置 和 根 之 间 的 某 个 位 置 上 遇 到 这 个 结 点 。 

removeMin( ) 方 法 (图 15-11) 获取 全 局 的 heapLock， 递 减 next 域 ， 返回 叶 结 点 的 索引 ， 
锁定 数组 中 第 一 个 未 使 用 的 槽 ， 再 释放 heapLock (第 76~ 80 行 )。 然 后 ， 它 将 根 的 元 素 保 存在 
一 个 局 部 变量 中 ， 以 便 稍 后 将 其 作为 这 次 调用 的 结果 返回 (第 81 行 )。 将 结 点 标记 为 EMPTY 和 
unowned， 并 与 叶 结 点 交换 ， 再 对 (现在 为 空 的 ) 叶子 解锁 (第 82~84 行 )。 
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private static enum Status {EMPTY, 
16 private static class HeapNode<S> { 


AVAILABLE, BUSY}; 


17 Status tag; 

18 int score; 

19 S item; 

20 int owner; 

21 Lock lock; 

22 public void init(S myItem, int myScore) { 
23 item = myItem; 

24 score = myScore; 

25 tag = Status.BUSY; 

26 owner = ThreadID.get(); 

27 } 

28 public HeapNode() { 

29 tag = Status. EMPTY; 

30 lock = new ReentrantLock(); 

31 } 

32 public void lock() {lock.lock();} 


... // other methods omitted 


图 15-9 FineGrainedHeap2k: 内 部 的 HeapNode 类 


public void add(T item, int score) { 
heapLock. lock(); 
int child = next++; 
heap[child].lock(); 
heap[child].init(item, score); 
heapLock.unlock(); 
heap[child] .unlock(); 





while (child > ROOT) { 
int parent = child / 2; 
heap[parent] .lock(); 
heap[child].lock(); 
int oldChild = child; 
try { 
if (heap[parent].tag == Status.AVAILABLE && heap[child].amOwner()) { 
if (heap[child].score < heap[parent].score) { 
swap(child, parent); 
child = parent; 
} else { 
heap[child].tag = Status.AVAILABLE; 
heap[child] .owner = NO_ONE; 
return; 
} 
} else if (!heap[child].amOwner()) { 
child = parent; 
} 
} finally { 
heap[oldChild] .unlock(); 
heap[parent] .unlock(); 





} 
if (child == ROOT) { 
heap[ROOT] .lock(); 
if (heap[ROOT] .amOwner()) { 
heap[ROOT].tag = Status.AVAILABLE; 
heap [chi1d] .owner = NO_ONE; 
} 
heap[ROOT] .unlock(); 
} 





图 15-10 FineGrainedHeap2é: add() 方 法 
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public T removeMin() { 





76 heapLock. lock(); 

77 int bottom = --next; 

78 heap [ROOT] .lock{); 

79 heap[bottom] .lock(); 

80 heapLock.unlock(); 

81 T item = heap[ROOT] .item; 

82 heap[ROOT].tag = Status. EMPTY; 

83 heap[ROOT] .owner = NO_ONE; 

84 swap(bottom, ROOT); 

85 heap[bottom] .unlock(); 

86 if (heap[ROOT].tag == Status.EMPTY) { 
87 heap[ROOT] .unlock(); 

88 return item; 

89 } 

90 heap[ROOT].tag = Status.AVAILABLE; 

91 int child = 0; 

92 int parent = ROOT; 

93 while (parent < heap.length / 2) { 

94 int left = parent * 2; 

95 int right = (parent * 2) + 1; 

96 heap[left].lock(); 

97 heap[right] .lock(); 

98 if (heap[left].tag == Status.EMPTY) { 
99 heap [right] .unlock(); 

100 heap[left] .unlock(); 

101 break; 

102 } else if (heap[right].tag == Status.EMPTY || heap[left].score 
103 < heap[right].score) { 
104 heap[right] .unlock(); 

105 child = left; 

106 } else { 

107 heap[left] .unlock(); 

108 child = right; 

109 

110 if (heap[child] .score < heap[parent] .score 
111 && heap[child].tag != Status.EMPTY) { 
112 swap(parent, child); 

113 heap[parent] .unlock(); 

114 parent = child; 

115 } else { 

116 heap[child].unlock(); 

117 break; 

118 } 

119 } 

120 heap[parent] .unlock(); 

121 return item; 

122 } 

123 k 

124 } 








图 15-11 FineGrainedHeap 类 :; removeMin( ) 方 法 


此 时 ， 这 个 方法 已 将 它 的 最 终结 果 记 录 在 一 个 局 部 变量 中 ， 并 将 叶子 移 到 根部 ， 将 叶子 原 
先 的 位 置 标 为 EMPTY。 它 保持 着 根 的 锁 。 如 果 堆 仅 有 一 个 元 素 ， 那 么 叶子 和 根 是 一 样 的 ， 所 以 
方法 检查 根 是 否 只 被 标记 为 EMPTY。 如 果 是 ， 则 释放 根 上 的 锁 ， 返 回 这 个 元 素 (第 85 ~89 行 )。 
现在 ,按照 与 顺序 实现 几乎 相同 的 逻辑 向 下 过 滤 新 的 根 结 点 ， 直 到 到 达 正 确 的 位 置 为 止 。 
向 下 过 滤 的 结 点 被 锁定 ， 直 到 它 到 达 正 确 位 置 。 当 交换 两 个 结 点 时 ， 将 它们 两 个 都 锁定 ， 并 
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交换 它们 的 域 。 在 每 一 步 ， 方 法 都 锁定 结 点 的 左右 孩子 (第 96 行 )。 如 果 左 孩子 为 空 ， 则 将 两 
个 孩子 解锁 并 返回 (第 98 行 )。 如 果 右 孩子 为 空 ， 而 左 孩 子 具 有 更 高 的 优先 级 ， 则 对 右 孩 子 解 
锁 并 检查 左 孩子 〈 第 103 行 )。 否 则 ， 对 左 孩 子 解锁 并 检查 右 孩 子 (第 106 行 )。 

如 果 孩 子 结 点 具有 较 高 的 优先 级 , 则 交换 父 结 点 和 和 孩子 结 点 , 并 为 父 结 点 解锁 (第 111 行 )。 
否则 ， 将 孩子 结 点 和 父 结 点 解锁 ， 并 返回 。 

并 发 的 add( ) 方 法 获取 heapLock， 分 配 、 上 锁 、 初 始 化 一 个 空 的 叶 结 点 ， 并 为 其 解锁 (第 
36 一 41 行 )。 这 个 叶 结 点 的 tag 为 BUSY，owner 是 正在 调用 的 线程 。 然 后 ， 再 对 叶 结 点 解锁 。 

随后 ， 继 续 向 上 过 滤 这 个 结 点 ， 用 chi1d 变 量 保存 结 点 的 轨迹 。 它 先 锁定 父 结 点 ， 然 后 是 
孩子 结 点 〈 所 有 的 锁 都 以 升序 获取 ) 。 如 果 父 结 点 为 AVAILABLE， 且 和 孩子 结 点 被 调用 者 拥有 ， 
那么 ， 就 比较 它们 的 优先 级 。 如 果 孩 子 结 点 具有 更 高 的 优先 级 ， 则 交换 它们 的 域 ， 并 向 上 移 
动 〈 第 50 行 )。 否 则 ， 该 结 点 的 位 置 不 变 ， 并 标记 为 AVAILABLE 和 unowned (445347), Ane 
子 结 点 不 是 被 调用 者 拥有 ， 则 该 结 点 必定 已 被 一 个 并 发 的 removeMin( ) 方 法 向 上 移动 ， 所 以 ， 
方法 只 是 简单 地 向 上 移动 ， 查 找 它 的 结 点 (第 58 行 )。 

图 15-12 描 述 了 FineGrainedHeap 类 的 一 次 执行 过 程 。a 中 给 出 了 堆 的 树 形 结构 ， 优 先 级 标 
在 结 点 中 ， 数 组 项 标 在 结 点 之 上 。next 域 设 为 10， 表 示 可 以 加 入 一 个 新 元 素 的 下 一 个 数组 项 。 
可 以 看 出 ， 线 程 4 开 始 一 个 removeMin( ) 调 用 ， 从 根 收集 到 值 1 作为 要 被 返回 的 值 ， 将 优先 数 
为 10 的 叶 结 点 移 到 根部 ， 将 next 设 为 9%。。removeMin( ) 方 法 检查 10 是 否 需 要 在 堆 中 向 下 过 滤 。 
在 b 中 ,线程 4 在 堆 中 将 10 向 下 过 滤 ， 同 时 ， 线 程 B 将 优先 数 为 2 的 新 元 素 加 入 堆 中 ， 放 入 最 近 
空 出 来 的 数组 项 9 中 。 新 结 点 的 owner 为 B，B 开 始 向 上 过 滤 2， 将 它 与 优先 数 为 7 的 父 结 点 交换 。 
交换 之 后 ， 释 放 结 点 上 的 锁 。 同 时 ，4 将 优先 数 为 10 和 3 的 结 点 相互 交换 。 在 c 中 ，4 忽 略 2 的 
busy 状 态 ， 采 用 交叉 上 锁 方式 交换 10 和 2， 然 后 交换 10 和 7。 这 样 ， 它 从 线程 了 的 下 面 交换 了 未 
上 锁 的 2。 在 d 中 ， 当 B 移 到 在 数组 项 4 中 的 父 结 点 时 ， 它 发 现 那 个 它 之 前 向 上 过 滤 的 优先 数 为 2 
的 busy 结 点 消失 了 。 不 管 怎 样 ， 它 继续 向 上 ， 并 在 上 升 中 找到 优先 数 为 2 的 结 点 ， 将 它 移 到 堆 
中 的 正确 位 置 。 

4:removeMin 将 返回 1 


heapLock A 4 Next 
status ' 


heapLock 









J priority 
item 





T B: add(2) b) 
图 15-12 FineGrainedHeap 类 : 基于 堆 的 优先 级 队列 
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heapLock 





c) d) 
图 15-12 (4%) 


15.5 基于 跳 表 的 无 界 优先 级 队列 


FineGrainedHeap 优 先 级 队列 算法 的 缺点 之 一 就 是 下 层 的 堆 结构 需要 复杂 协作 的 重新 平 
衡 。 本 节 将 给 出 一 种 无 需 重新 平衡 的 算法 。 

回顾 第 14 章 的 内 容 ， 跳 表 是 一 个 由 有 序 链表 组 成 的 集合 。 每 个 链表 是 结 点 的 序列 ， 每 个 
结 点 包含 一 个 元 素 。 每 个 结 点 都 属于 这 些 链 表 中 的 一 个 子 集 ， 每 个 链表 中 的 结 点 都 按照 它们 
的 哈 希 值 排序 。 每 个 链表 有 一 个 级 别 ( 层 ) ， 从 0 到 最 大 值 。 最 底层 的 链表 包含 所 有 的 结 点 ， 
每 个 较 高 层 的 链表 都 是 较 低 层 链 表 的 一 个 子 链表 。 每 个 链表 大 约 包含 其 下 一 层 链 表 中 一 半 的 
结 点 。 因 此 ， 在 一 个 具有 K 个 元 素 的 跳 表 中 播 入 或 者 删除 一 个 结 点 ， 所 花费 的 期 望 时 间 为 
O(logk). 

第 14 章 采用 跳 表 实现 了 元 素 的 集合 。 在 此 ， 将 采用 跳 表 来 实现 附 有 优先 数 的 优先 级 队列 。 
下 面 描述 一 个 PrioritySkipList 类 ， 它 提供 实现 有 效 的 优先 级 队列 所 必须 的 基本 功能 。 尽 管 
PrioritySkipList 类 (图 15-13 和 图 15-14) 可 以 简单 地 建立 在 LazySkipList 类 之 上 ， 但 我 们 
还 是 以 第 14 章 的 LockFreeSkipList 类 为 基础 来 构建 PrioritySkipList 类 。 之 后 ， 为 解决 
PrioritySkipList<T> 类 的 粗糙 问题 ， 将 介绍 一 个 SkipQueue 包 装 程序 。 

以 下 是 该 算法 的 概要 。PrioritySkipList 类 按照 优先 级 而 不 是 哈 希 值 对 元 素 进行 排序 ， 
从 而 确保 高 优先 级 的 元 素 (希望 首先 删除 的 元 素 ) 出 现在 链表 的 前 端 。 图 15-15 描 述 了 一 个 这 
样 的 PrioritySkipList 结 构 。 最 高 优先 级 元 素 的 删除 是 惰性 地 完成 的 ( 见 第 9 章 )。 先 作 标 记 
来 逻辑 地 删除 一 个 结 点 ， 然 后 再 将 该 结 点 从 链表 中 断 开 以 完成 物理 删除 。removeMin( ) 方 法 按 
照 下 面 两 个 步骤 进行 工作 : 首先 ， 扫 描 底 层 链 表 查 找 第 一 个 未 标记 的 结 点 。 如 果 找 到 一 个 结 
点 ， 则 尝试 标记 该 结 点 。 如 果 尝 试 失败 ， 则 继续 向 下 扫描 链表 ， 如 果 成 功 ， 那 么 removeMin() 
调用 PrioritySkipList 类 的 对 数 时 间 的 remove( ) 方 法 ， 物 理 地 删除 这 个 被 标记 的 结 点 。 

下 面 转向 算法 的 细节 。 图 15-13 描 述 了 PrioritySkipList 类 的 概要 ， 它 是 第 14 章 中 
LockFreeSkipList 类 的 一 种 修改 版 本 。 让 add( ) 和 remove( ) 调 用 以 跳 表 结 点 而 不 是 元 素 作 为 
参数 和 返回 值 有 利于 实现 。 这 些 方法 是 相应 的 LockFreeSkipList 方 法 的 直接 变通 ， 将 其 留 作 
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习题 。 这 个 类 的 结 点 与 LockFreeSkipList 类 的 结 点 有 两 个 域 不 相同 : 整 型 的 score 域 (第 4 行 ) 
和 用 来 在 优先 级 队列 中 (不 在 跳 表 中 ) 进行 逻辑 删除 (第 5 行 ) 的 AtomicBoolean market 域 。 
findAndMarkMin( ) 方 法 扫描 最 底层 链表 ， 直 到 找到 一 个 marked 域 为 false 的 结 点 ， 然 后 原子 地 
尝试 将 这 个 域 设 为 frue (第 19 行 )。 如 果 失 败 ， 则 再 次 尝试 。 当 它 成 功 时 ， 给 调用 者 返回 最 近 
标记 的 结 点 (第 20 行 )。 





1 public final class PrioritySkipList<T> { 
2 public static final class Node<T> { 
3 final T item; 

4 final int score; 

5 AtomicBoolean marked; 

6 final AtomicMarkableReference<Node<T>>[] next; 
7 // sentinel node constructor 

8 public Node(int myPriority) { ... } 
9 // ordinary node constructor 

10 public Node(T x, int myPriority) { ... } 
11 } 

12 boolean add(Node node) { ... } 

13 boolean remove(Node<T> node) { ... } 

14 public Node<T> findAndMarkMin() { 

15 Node<T> curr = null; 

16 curr = head.next[0].getReference(); 

17 while (curr != tail) { 

18 if (!curr.marked.get()) { 

19 if (curr.marked.compareAndSet (false, true) ) 
20 return curr; 








21 } else { 

22 curr = curr.next[0] .getReference(); 
23 } 

24 } 

25 } 

26 return null; // no unmarked nodes 





图 15-13 PrioritySkipList<T>2é; 内 部 的 Node<T> 类 








1 public class SkipQueue<T> { 

2 PrioritySkipList<T> skiplist; 

3 public SkipQueue() { 

4 skiplist = new PrioritySkipList<T>(); 

5 3 

6 public boolean add(T item, int score) { 

7 Node<T> node = (Node<T>)new Node(item, score); 
8 return skiplist.add({node); 

9 } 

10 public T removeMin() { 

11 Node<T> node = skiplist.findAndMarkMin(); 
12 if (node != null) { 

13 skiplist. remove (node) ; 

14 return node.item; 

15 } else{ 

16 return null; 

17 } 

18 } 

19 } 








图 15-14 SkipQueue<T>2é 
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a) b) 
图 15-15 SkipQueue 优 先 级 队列 : 一 次 静态 一 致 但 不 可 线性 化 的 执行 。 在 a 中 ， 线 程 4 开始 一 个 
removeMin( ) 方 法 调用 。 它 遍历 PrioritySkipList 中 的 最 底层 链表 ， 以 查找 并 逻辑 
删除 第 一 个 未 标记 的 结 点 。 它 遍历 了 所 有 的 标记 结 点 ， 甚 至 包括 像 优 先 数 为 5 的 那 种 
正 处 于 从 SkipList 中 被 物理 删除 的 结 点 。 在 b 中 ， 当 4 正在 访问 优先 数 为 9 的 结 点 时 ， 
线程 38 增加 一 个 优先 数 为 3 的 结 点 ， 然 后 增加 一 个 优先 数 为 18 的 结 点 。 线 程 4 标记 并 返 
回 优先 数 为 18 的 结 点 。 一 次 可 线性 化 的 执行 在 优先 数 为 3 的 元 素 被 返回 之 前 不 能 返回 
优先 数 为 18 的 元 素 
图 15-14 为 SkipQueue<T> 类 。 这 个 类 只 是 PrioritySkipList<T> 的 一 个 包装 程序 。add(x， 
P) 方 法 增加 优先 数 为 p 的 元 素 x， 先 创建 一 个 结 点 来 保存 这 两 个 值 ， 再 将 该 结 点 传递 给 
PrioritySkipList 类 的 add( ) 方 法 。removMin( ) 方 法 调用 PrioritySkipList 类 的 findAndMarkMin( ) 
方法 来 将 一 个 结 点 标记 为 逻辑 删除 ， 然 后 调用 remove( ) 物 理 地 删除 该 结 点 。 
SkipQueue 类 是 静态 一 致 的 ; 如果 元 素 x 在 removMin( ) 调 用 开始 之 前 就 已 存在 的 话 ， 则 返回 元 
素 的 优先 数 将 小 于 等 于 x 的 优先 数 。 该 类 是 不 可 线性 化 的 : 一 个 线程 可 能 会 增加 一 个 较 高 优先 级 
( 较 低 优先 数 ) 的 元 素 ， 然 后 再 增加 一 个 较 低 优先 级 的 元 素 ， 正 在 遍历 的 线程 则 可 能 发 现 并 返回 
后 面 插入 的 较 低 优先 级 的 元 素 ， 从 而 违背 了 可 线性 化 性 。 然 而 ， 这 种 行为 是 静态 一 致 的 ， 因 为 可 
以 用 任何 removeMin( ) 来 并 发 地 重新 排序 add( ) 调 用 ， 使 其 与 一 个 顺序 优先 级 队列 保持 一 致 。 
SkipQueue 类 是 无 锁 的 。 一 个 正在 遍历 SkipList 最 底层 的 线程 ， 有 可 能 总 是 被 另 一 个 调用 
排挤 到 下 一 个 逻辑 上 未 删除 的 结 点 ， 但 仅仅 在 其 他 线程 不 断 成 功 的 情况 下 才 会 不 断 地 失败 。 
总 之 ， 静 态 一 致 的 SkipQueue 试 图 超越 基于 堆 的 可 线性 化 队列 。 如 果 存 在 有 7 个 线程 ， 那 
么 第 一 个 没有 被 逻辑 删除 的 结 点 总 是 在 最 底层 链表 的 前 n 个 结 点 之 中 。 一 旦 一 个 结 点 被 逻辑 删 
除 ， 那 么 在 最 坏 情 况 下 ， 它 将 在 O(log 个 步骤 内 被 物理 删除 ， 其 中 ，k 为 链表 的 大 小 。 在 实际 
中 ， 一 个 结 点 的 删除 可 能 要 比 这 快 得 多 ， 因 为 该 结 点 很 可 能 靠近 链表 的 起 始 位 置 。 
然而 ， 算 法 中 一 些 会 引起 争 用 的 因素 可 能 影响 着 算法 的 性 能 ， 因 此 需要 使 用 回 退 和 调谐 。 
如 果 有 几 个 线程 试图 并 发 地 标记 一 个 结 点 ， 则 会 出 现 争 用 ， 失 败 者 将 一 起 尝试 标记 下 一 个 结 
点 ， 如 此 反复 。 当 从 跳 表 中 物理 地 删除 一 个 元 素 时 ， 也 会 出 现 争 用 。 所 有 要 被 删除 的 结 点 可 
能 是 处 于 跳 表 起 始 位 置 的 相 邻 结 点 ， 所 以 它们 共享 前 驱 的 概率 很 高 ， 这 可 能 导致 在 试图 断 开 
指向 结 点 的 链接 时 ，compareAndSet( ) 调 用 不 断 地 失败 。 


15.6 本 章 注释 


FineGrainedHeap 优 先 级 队列 是 由 Galen Hunt、Maged Michael、Srinivasan Parthasarathy 
和 Michael Scott[74] 提 出 的 。SimpleLinear 和 SimpleTree 优 先 级 队列 则 是 由 Nir Shavit 和 
Asaph Zemach[143] 提 出 的 。SkipQueue 是 由 Itai Lotan 和 Nir Shavit[107] 提 出 的 ， 他 们 也 提出 了 
该 算法 的 一 个 可 线性 化 版 本 。 


15.7 习题 
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习题 173. 试 给 出 一 个 静态 一 致 但 不 可 线性 化 的 优先 级 队列 执行 实例 。 

习题 174. 采用 计数 网 或 衍射 树 ， 实 现 无 锁 的 boundedGetAndIncrement() 和 boundedGet- 
AndDecrement ( ) 方 法 ， 从 而 实现 一 个 静态 一 致 的 Counter 。 

习题 175. 在 SimpleTree 算 法 中 ， 如 果 用 规则 的 G6etAndDecrement() 方 法 替代 boundedGetAnd- 


Decrement() 方 法 ,会 出 现 什么 情况 ? 


习题 176. 在 treeNode 计 数 器 中 ， 使 用 bounded6etAndIncrement( ) 方 法 ， 设 计 一 种 具有 有 界 容量 的 


Simp1eTree 算 法 。 


习题 177. 在 Simp1eTree 类 中 ， 如 果 add( ) 将 一 个 元 素 放 和 人 适当 的 Bin 之 后 ， 采 用 与 removeMin( ) 方 
法 一 样 从 上 到 下 的 方式 增加 了 计数 器 ， 将 会 出 现 什么 情况 ? 试 给 出 一 个 详细 的 示例 。 


习题 178. 证 明 Simp1eTree 是 静态 一 致 的 优先 级 
队列 实现 。 

习题 179. 修改 FineGrainedHeap ， 使 得 能 动态 地 
分 配 新 的 堆 结 点 。 这 种 方法 的 性 能 局 限 性 体现 
在 哪里 ? 

习题 180. 图 15-16 给 出 了 一 个 按 位 倒置 的 计数 器 。 
可 以 使 用 这 种 计数 器 来 管理 FineGrainedHeap 
类 的 next 域 。 试 证 明 : 对 于 任意 两 个 连续 的 插 
入 ， 从 叶子 到 根 的 两 条 路 径 除 了 根 之 外 没有 共 
同 的 结 点 。 为 什么 这 是 FineGrainedHeap 的 一 
个 有 用 的 性 质 ? 

习题 181. 给 出 PrioritySkipList 类 中 add() 和 
remove( ) 方 法 的 代码 。 

习题 182. 本 章 的 PrioritySkipList 类 是 基于 
LockFreeSkipList 类 的 。 写 出 另 一 种 基于 
LazySkipList 类 的 PrioritySkipList 类 。 

习题 183. 给 出 SkipQueue 实 现 的 一 个 场景 ,其 中 ， 
争 用 是 由 多 个 并 发 的 removeMin( ) 方 法 调用 所 
引起 的 。 

习题 184. SkipQueue 类 是 静态 一 致 的 但 不 是 可 线 
性 化 的 。 下 面 是 一 种 通过 加 入 一 个 简单 的 时 间 
惟 机 制 ， 可 以 使 得 该 类 变 为 可 线性 化 的 方法 。 
在 一 个 结 点 被 完全 插入 到 SkipQueue 之 后 ， 它 
获取 一 个 时 间 惟 。 一 个 正在 执行 removeMin( ) 
的 线程 注意 到 它 开始 遍历 SkipQueue 中 较 低 层 
的 时 刻 ， 只 考虑 时 间 改 时 于 它 开 始 遍 历 的 时 间 ， 
有 效 地 忽略 在 它 遍 历 过 程 中 被 插入 的 结 点 。 试 
实现 这 个 类 并 证 明 它 为 什么 可 行 。 








public class BitReversedCounter { 
int counter, reverse, highBit; 
BitReversedCounter(int initialValue) { 
counter = initialValue; 
reverse = 0; 
highBit = -1; 
} 
public int reverseIncrement() { 
if (counter++ == 0) { 
reverse = highBit = 1; 
return reverse; 
} 
int bit = highBit >> 1; 
while (bit != 0) { 
reverse “= bit; 367 
if ((reverse & bit) != 0) break; 
bit >>= 1; 


Hoot 








} 
if (bit == 0) 

reverse = highBit <<= 1; 
return reverse; 


public int reverseDecrement() { 
counter--; 
int bit = highBit >> 1; 
while (bit != 0) { 
reverse “= bit; 
if ((reverse & bit) == 0) { 
break; 
} 
bit >>= 1; 


} 

if (bit == 0) { 
reverse = counter; 
highBit >>= 1; 

} 

return reverse; 

} 
} 





oo 


图 15-16 按 位 倒置 计数 器 36 
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本 章 将 阐述 如 何 将 某 种 类 型 的 问题 分 解 成 多 个 可 并 行 执行 的 部 分 。 有 些 应 用 可 以 很 自然 地 分 
解 为 多 个 可 并 行 的 线程 。 例 如 ， 若 Web 服 务 器 收 到 一 个 请 求 ， 它 就 创建 一 个 线程 (或 者 分 配给 一 
个 已 经 存在 的 线程 ) 来 处 理 这 个 请 求 。 能 被 组 织 成 生产 者 和 消费 者 的 应 用 往往 也 是 可 并 行 化 的 。 
然而 ， 在 本 章 中 ， 我 们 将 探讨 那些 表面 上 看 似乎 无 法 直接 并 行 但 其 内 在 本 质 又 具有 并 行 性 的 应 用 。 

首先 来 考虑 如 何 并 行 地 求解 两 个 矩阵 的 乘积 。 回 顾 一 下 : an Ra, REREAD BG, 力 个 
位 置 的 值 ， 那 么 两 个 n x n 和 矩阵 A 和 B 的 乘积 C 可 由 下 式 给 出 : 


n-l 
Cy = YD x Dy 


第 一 步 ， 可 以 让 一 个 线程 负责 计算 一 个 cv。 图 16-1 描 述 了 一 个 矩阵 乘法 程序 ， 它 创建 了 一 
个 由 Worker 线 程 组 成 的 n x n 数 组 (图 16-2)， 其 中 ， 处 于 位 置 (i, 让 的 Worker 线 程 计 算 c;。 程 序 
将 启动 每 个 任务 ， 并 等 待 这 些 任务 全 部 完成 。® 


class MMThread { 

double[][] a, b, c; 

int n; 

public MMThread(double[][] myA, double[][] myB) { 
n = myA. length; 
a = myA; 
b = myB; 
c = new double[n] [n]; 


} 
void multiply() { 


Worker[{] [] worker = new Worker[n] [n]; 
for (int row = 0; row < n; row++) 
for (int col = 0; col < n; col++) 
worker[row] [col] = new Worker(row,col); 
for (int row = 0; row < n; row++) 
for (int col = 0; col < n; col++) 
worker[row] [col].start(); 
for (int row = 0; row < n; row++) 
for (int col = 0; col < n; col++) 
worker [row] [col] .join(); 





图 16-1 MMThread 任 务 : 采用 多 线程 实现 矩阵 乘法 


理论 上 讲 ， 这 可 能 是 一 种 完美 的 设计 。 程 序 是 高 度 并 行 化 的 ， 线 程 甚至 都 不 需要 同步 。 
然而 在 实际 中 ， 这 种 设计 对 于 小 矩阵 的 效果 很 好 ， 但 对 于 非常 大 的 矩阵 则 并 不 理想 。 其 原因 


日 ”在 实际 的 代码 中 ， 必 须 检 查 各 种 情况 。 这 里 为 了 简明 起 见 ， 省 略 了 大 多 数 安全 性 检查 。 
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ET: 线程 需要 内 存 来 存放 栈 和 其 他 人 信息。 创建 、 调 度 和 清除 线程 都 需要 大 量 的 计算 。 创 建 
多 个 短 生命 期 的 线程 来 进行 多 线程 计算 22 class Worker extends Thread { 
并 不 是 一 种 有 效 的 方式 。 23 int row, cols 

组 织 这 个 程序 的 一 种 更 为 有 效 的 方 24 nd mmt ee { 
趟 就 是 创建 一 个 由 长 生命 期 的 线程 组 成 | a O Oma mai 
的 池 。 池 中 的 每 个 线程 一 直 在 等 待 ， 直 ao. ea 








28 double dotProduct = 0.0; 
到 被 分 派 一 个 任务 (短期 的 计算 单元 ) 29 for (int i = 0; oe vate 
X Dy = 30 dotProduct += a[row] [i] * b[i][col]; 
为 止 。 若 给 一 个 线程 分 派 了 一 个 任务 ， 31 c[row] [col] = ot Pra 
那么 该 线程 将 执行 这 个 任务 ， 然 后 重新 32 
进入 池 中 等 待 下 一 次 分 派 。 线 程 池 是 平 | 34 1 | 





台 相 关 的 : 对 于 大 规模 多 处 理 器 系统 提 
供 多 个 较 大 的 地 ， 反 之 亦 然 。 线 程 池 避 
免 了 由 于 短 生 命 期 的 频繁 变化 ， 带 来 的 创建 和 清除 线程 的 代价 。 

除了 性 能 方面 的 优势 之 外 ， 线 程 池 还 具有 另外 一 个 不 太 明显 但 同样 重要 的 优点 : 它们 能 
隔离 应 用 程序 与 特定 平台 的 细节 (如 可 以 有 效 调度 的 并 发 线程 数 ) 。 采用 线程 池 能 使 我 们 编写 
出 在 单 处 理 器 、 小 规模 多 处 理 器 和 大 规模 多 处 理 器 上 都 可 以 高 效 运行 的 程序 。 线程 池 提 供 了 
简单 的 接口 ， 隐 藏 了 复杂 的 、 平 台 相关 的 工程 性 折 中 细 市 。 

在 Java 中 ， 线 程 池 被 称 作 执行 者 服务 (ExecutorService, java.util.ExecutorService 
的 接口 )。 它 为 我 们 提供 了 提交 任务 、 等 待 已 提交 任务 集 完成 以 及 撤销 未 完成 任务 的 能 力 。 没 
有 返回 值 的 任务 被 表示 为 Runnab1e 对 象 ， 其 工作 由 一 个 不 带 参数 、 无 返回 值 的 run( ) 方 法 来 完 
成 。 返 回 值 类 型 为 T 的 任务 则 被 表示 为 Ca11able<T> 对 象 ， 其 结果 通过 一 个 类 型 为 T 的 不 带 参 数 
的 ca11() 方 法 返回 。 

当 一 个 Cal1able<T> 对 象 提交 给 执行 者 服务 时 ， 该 服务 将 返回 一 个 实现 了 Future<T> 接 口 
的 对 象 。 一 旦 Future<T> 准 备 就 绪 ， 则 就 是 交付 异步 计算 结果 的 一 种 保证 。 该 对 象 提供 了 能 
回 异 步 计算 结果 的 get() 方 法 ， 在 需要 时 能 够 阻塞 直到 结果 准备 就 结 。( 它 也 提供 了 撤销 未 完 
成 计算 和 检查 计算 是 否 完成 的 方法 。) 提交 一 个 Runnab1e 任 务 也 会 返回 一 个 future。 与 
callable<T> 对 象 返 回 的 future 不 同 ， 该 future 并 不 返回 值 ， 但 调用 者 可 以 使 用 这 个 future 的 
get() 方 法 进行 阻塞 ， 直 到 计算 完成 为 止 。 没 有 返回 值 的 future 被 声明 为 具有 类 Future<?>。 

理解 下 面 这 一 点 非常 重要 : 创建 一 个 future 并 不 能 保证 所 有 的 计算 在 实际 中 都 是 并 行 执行 
的 。 相 反 ， 这 些 方法 都 是 劝告 型 的 ;它们 告诉 底层 的 一 个 执行 者 服务 ， 它 可 以 并 行 地 执行 这 
些 方法 。 

现在 考虑 如 何 使 用 执行 者 服务 来 实现 并 行 矩 阵 操作 。 图 16-3 描 述 了 一 个 Matrix 类 ， 它 提 
供 put() 和 get() 方 法 来 访问 矩阵 元 素 ， 并 提供 一 个 常数 时 间 的 sp1it() 方 法 来 将 一 个 n xn 的 
矩阵 划分 为 4 个 (n/2) x (2) 的 子 矩阵 。 在 Java 术 语 中 ，4 个 子 矩 阵 能 返回 到 原始 矩阵 ， 也 就 是 
说 ， 对 子 和 矩阵 的 改变 能 反映 到 原始 矩阵 中 ， 反 之 亦 然 。 

我 们 要 做 的 就 是 设计 一 个 MatrixTask 类 ， 它 提供 矩阵 加 法 和 矩阵 乘法 的 并 行 方法 。 该 类 
有 一 个 静态 域 、 一 个 称 为 exec 的 执行 者 服务 ， 以 及 两 个 分 别 用 于 求 和 及 求 积 的 静态 方法 。 

为 简单 起 见 ， 我 们 考虑 维 z 是 2 的 寡 的 矩阵 。 每 个 这 样 的 矩阵 都 可 以 分 解 为 4 个 子 矩 阵 : 


图 16-2 MMThread 任 务 : 内 部 的 Worker 线 程 类 
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I 4 public class Matrix { 








2 int dim; 

3 double[][] data; 

4 int rowDisplace, colDisplace; 

5 public Matrix(int d) { 

6 dim = d; 

7 rowDisplace = colDisplace = 0; 

8 data = new double[d] [d]; 

9 } 

10 private Matrix(double[][] matrix, int x, int y, int d) { 
11 data = matrix; 

12 rowDisplace = x; 

13 colDisplace = y; 

14 dim = d; 

15 } 

16 public double get(int row, int col) { 

17 return data[rowtrowDisplace] [col+colDisplace]; 

18 } 

19 public void set(int row, int col, double value) { 

20 data[rowtrowDisplace] [col+colDisplace] = value; 

21 } 

22 public int getDim() { 

23 return dim; 

24 } 

25  Matrix[][] split() { 

26 Matrix[] [] result = new Matrix{2] [2]; 

27 int newDim = dim / 2; 

28 result[0] [0] = 

29 new Matrix(data, rowDisplace, colDisplace, newDim) ; 
30 result[0][1] = 

31 new Matrix(data, rowDisplace, colDisplace + newDim, newDim) ; 
32 result[1] [0] = 

33 new Matrix(data, rowDisplace + newDim, colDisplace, newDim); 
34 result[1] [1] = 

35 new Matrix(data, rowDisplace + newDim, colDisplace + newDim, newDim); 
36 return result; 





37 } 
38 } 


图 16-3 Matrix% 


lane 


矩阵 加 法 C = A + B 可 以 分 解 为 下 式 : 


( Coo 
Co Ci 1 


Pa ras eq 
Áo Ay Bo Ba 


Pa + Boo a 
Ao+Bo A, +B, 


四 个 求 和 过 程 可 以 并 行 完成 。 
图 16-4 给 出 了 多 线程 矩阵 加 法 的 代码 。AddTask 类 有 3 个 域 ， 通 过 构造 函数 来 初始 化 a 和 
/5 是 要 相 加 的 两 个 矩阵 ，c 是 结果 ， 其 内 容 要 被 修改 。 每 个 任务 的 执行 过 程 如 下 : 在 递归 的 最 


底层 ， 它 只 是 简单 地 将 两 个 标量 值 相 加 (第 20 行 )。e 否 则 ， 它 将 每 个 参数 分 解 为 4 个 子 矩 阵 
O 实际 中 ， 在 矩阵 大 小 达到 1 之 前 停止 递 归 往往 更 有 效 。 最 佳 的 大 小 是 依赖 于 平台 的 。 
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(第 22 行 )， 并 为 每 个 子 和 矩阵 发 起 一 个 新 任务 (第 24 ~27 行 )。 然 后 ， 等 待 直到 所 有 的 future 都 
能 被 求 值 ， 也 就 是 说 子 计 算 都 已 完成 (第 28 ~30 行 )。 此 时 ， 任 务 简单 地 返回 ， 计 算 结 果 已 保 
FEA REER. IERAC = A - B 可 以 如 下 分 解 : 
Co Col Ago AN (Boo Bor 
pi eine vale i4 
S ees + Ao, * Bio i 
Aio ` Boy +A’ Bo Ajo * Boy + Ay * Ba 








public class MatrixTask { 
static ExecutorService exec = Executors.newCachedThreadPool (); 


1 

2 

3 shih ca 

4 static Matrix add(Matrix a, Matrix b) throws ExecutionException { 
5 int n = a.getDim(); 

6 Matrix c = new Matrix(n); 

7 Future<?> future = exec.submit(new AddTask(a, b, c)); 

8 future.get(); 








9 return c; 

10 } 

11 static class AddTask implements Runnable { 

12 Matrix a, b, C; 

13 public AddTask(Matrix myA, Matrix myB, Matrix myC) { 

14 a = myA; b = myB; c = myC; 

15 } 

16 public void run() { 

17 try { 

18 int n = a.getDim(); 

19 if (n == 1) { 

20 c.set(0, 0, a.get(0,0) + b.get(0,0)); 

21 } else { 

22 Matrix[][] aa = a.split(), bb = b.split(), cc = c.split(); 
23 Future<?>[][] future = (Future<?>[][]) new Future[2] [2]; 
24 for (int i = 0; i < 2; i++) 

25 for (int j = 0; j < 2; j++) 

26 future[i] [j] = 

27 exec. submit (new AddTask(aa[i] [j], bb[i] [j], ce[i][j])); 
28 for (int i = 0; i < 2; i++) 

29 for (int j = 0; j < 2; j++) 

30 future[i] [j] .get(); 

31 } 

32 } catch (Exception ex) { 

33 ex.printStackTrace(); 

34 } 

35 } 

36 } 

z 








图 16-4 _ MatrixTask 类 : 并 行 的 矩阵 加 法 


8 个 乘积 项 可 以 并 行 地 计算 。 当 这 些 计算 都 已 完成 时 ， 再 并 行 地 计算 4 个 求 和 。 

图 16-5 给 出 了 并 行 和 矩阵 乘法 任务 的 代码 。 拖 阵 乘 法 类 似 于 矩阵 加 法 。Mu1Task 类 创建 了 两 
个 临时 数组 来 保存 矩阵 的 乘积 项 〈 第 42 行 )。 它 将 所 有 的 5 个 矩阵 进行 分 割 (第 50 行 )， 并 将 这 
些 任务 提交 以 并 行 地 计算 8 个 乘积 项 (第 56 行 )， 然 后 等 待 它们 完成 (第 60 行 )。 一 旦 这 些 任务 
完成 ， 线 程 就 提交 任务 ， 并 行 地 计算 4 个 求 和 (第 64 行 )， 并 等 待 它们 完成 (第 65 行 )。 
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38 static class MulTask implements Runnable { 

39 Matrix a, b, c, Ths, rhs; 

40 public MulTask(Matrix myA, Matrix myB, Matrix myC) { 

41 a = myA; b = myB; c = myC; 

42 lhs = new Matrix(a.getDim()); 

43 rhs = new Matrix(a.getDim()); 

44 } 

45 public void run() { 

46 try { 

47 if (a.getDim() == 1) { 

48 c.set(0, 0, a.get(0,0) * b.get(0,0)); 

49 } else { 

50 Matrix[][] aa = a.split(), bb = b.split(), cc = c.split(); 
51 Matrix({][] 11 = lhs.split(), rr = rhs.split(); 

52 Future<?>[][][] future = (Future<?>[][][]) new Future[2] [2] [2]; 
53 for (int i = 0; i < 2; i++) 

54 for (int j = 0; j < 2; j++) { 

55 future[i] [j] [0] = 

56 exec. submit(new MulTask(aa[i] [0], ,bb[0] [i], 110i 订 6]))， 
57 future[i] [j] [1] = 

58 exec.submit(new MulTask(aa[1] [i], bb[i] [1], rr[i] [ji])); 
59 } 

60 for (int i = 0; i < 2; i++) 

61 for (int j = 0; j < 2; j++) 

62 for (int k = 0; k < 2; k++) 

63 future[i] [j] [k] .get(); 

64 Future<?> done = exec.submit(new AddTask(Ths, rhs, c)); 

65 done.get(); 

66 } 

67 } catch (Exception ex) { 

68 ex. printStackTrace(); 

69 } 

70 } 

71 } 

72 ‘ 

73 } 








图 16-5 MatrixTask 类 : 并 行 的 矩阵 乘法 


该 矩阵 实例 中 仅仅 使 用 future 来 发 出 任务 完成 的 信号 。future 也 可 以 用 来 从 已 完成 的 任务 
中 传递 值 。 为 了 说 明 future 的 这 种 用 法 ， 我 们 来 卷 虐 如何 将 众所周知 的 斐 波 那 契 数列 国 数 分 解 
成 一 个 多 线程 程序 。 回 顾 一 下 裴 波 那 契 数列 的 定义 如 下 : 
1 如 果 n=0 
F(n) = 31 如 果 n=1 
F(n-1)+ F(n-2) 如 果 n>1 


图 16-6 描 述 了 并 行 地 计算 裴 波 那 契 数列 的 一 种 方法 。 这 个 实现 的 效率 非常 低 ， 这 里 只 是 
用 它 来 说 明 与 多 线程 之 间 的 关系 。cal11( ) 方 法 创建 了 两 个 future， 一 个 计算 Fn 一 2)， 另 一 个 计 
算 F(n 一 1)， 然 后 将 它们 相 加 。 在 多 处 理 器 系统 中 ， 花 费 在 F(n 一 1) 的 future 上 的 阻塞 时 间 可 以 用 
来 计算 F(n 一 2)。 
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1 class FibTask implements Callable<Integer> { 
2 static ExecutorService exec = Executors.newCachedThreadPool (); 
3 int arg; 

4 public FibTask(int n) { 

5 arg = n; 

6 } 

7 public Integer call() { 

8 if (arg >= 2) { 


9 Future<Integer> left = exec.submit(new FibTask{arg-1)); 
10 Future<Integer> right = exec.submit (new FibTask(arg-2)); 
11 return left.get() + right.get(); 

12 } else { 
return 1; 





图 16-6 FibTask 类 : 一 个 有 future 的 裴 波 那 契 任务 


16.2 并 行 分 析 


多 线程 计算 可 以 看 成 是 一 个 无 环 有 向 图 (Directed Acyclic Graph，DAG)， 其中， 每 个 结 
点 代表 一 个 任务 ， 每 条 有 向 边 连 接着 一 个 前 驱 任务 和 一 个 后 继任 务 ， 后 继任 务 依赖 于 前 驱 任 
务 的 计算 结果 。 例 如 ， 一 个 常规 的 线程 就 是 一 个 结 点 链 ， 其 中 每 个 结 点 依赖 于 它 的 前 驱 结 点 。 
相 比 较 而 言 ， 一 个 创建 了 future 的 结 点 有 两 个 后 继 : 一 个 是 它 在 同一 线程 中 的 后 继 ， 另 一 个 则 
是 在 future 计 算 中 的 第 一 个 结 点 。 在 从 孩子 指向 父亲 的 方向 也 存在 边 ， 当 一 个 已 经 创建 了 
future 的 线程 调用 这 个 future 的 get( ) 方 法 并 等 待 这 个 孩子 计算 完成 时 ， 就 会 出 现 这 种 情况 。 
图 16-7 描 述 了 对 应 于 一 次 短 的 裴 波 那 契 数 列 执行 的 DAG 。 





submit 


图 16-7 一 次 多 线程 裴 波 那 契 数 列 执 行 的 DAG。 调 用 者 创建 一 个 FibTask(4) 任 务 ， 该 任务 又 创 
建 了 任务 FibTask(3) 和 FibTask(2)。 圆 形 的 结 点 表示 计算 步骤 ， 结 点 间 的 箭头 表示 依 
赖 关 系 。 例 如 ， 存 在 着 从 FibTask(4) 中 的 前 两 个 结 点 分 别 指向 FibTask(3) 和 
FibTask(2) 中 的 第 一 个 结 点 的 两 个 箭头 表示 Submit() 调 用 ， 以 及 从 FibTask(3) 和 
FibTask(2) 的 最 后 一 个 结 点 指向 FibTask(4) 的 最 后 结 点 的 箭头 表示 get( ) 调 用 。 计 算 的 
关键 路 径 长 度 为 8， 由 编号 的 结 点 标 出 
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某 些 计算 本 身 的 并 行 度 要 高 于 另 一 些 计算 。 现 在 我 们 来 明确 这 个 概念 。 假 定 所 有 的 单个 
计算 步 所 需 的 时 间 相 同 ， 将 它 作 为 基本 的 测量 单位 。 令 7p 为 在 一 个 有 P 个 专门 处 理 器 的 系统 上 
执行 一 个 多 线程 程序 所 需 的 最 小 时 间 (按照 计算 步 测 量 ) ， 那 么 7 就 是 该 程序 的 时 延 ， 即 从 外 
部 观测 者 的 角度 来 看 ， 是 程序 从 开始 到 完成 所 需 的 时 间 。 要 强调 一 点 ， 即 Tp 只 是 一 个 理想 化 
的 测量 值 : 有 可 能 无 法 找 出 每 一 个 处 理 器 上 执行 的 操作 步 ， 实 际 的 执行 时 间 可 能 受 限 于 其 他 
条 件 ， 例 如 存储 器 的 使 用 情况 。 但 是 ， 毫 无 疑问 ，7* 是 从 一 个 多 线程 计算 中 可 提取 的 并 行 度 
的 下 限 。 

与 7 相关 的 某 些 值 比 较 重 要 ， 它 们 有 特殊 的 名 字 。 刀 是 在 单个 处 理 器 上 执行 程序 所 需 的 操 
作 步 数 ， 称 为 计算 的 工作 。 工 作 也 是 整个 计算 过 程 中 的 总 操作 步 数 。 在 一 个 时 间 操 作 步 (OM 
外 部 观测 者 的 角度 ) 中 ，P 个 处 理 器 最 多 可 以 执行 P 个 计算 步骤 ， 因 此 ， 

Tp>T,/P 


另 一 个 极端 也 很 重要 : 7T-， 它 是 在 无 限 数量 的 处 理 器 上 执行 程序 所 需 的 操作 步 数 ， 称 为 关键 
路 径 长 度 。 因 为 在 有 限 资源 上 不 可 能 比 无 限 资源 的 效果 更 好 ， 所 以 
T,>T, 
P 个 处 理 器 上 的 加 速 比 为 比值 
TIT. 
MRT ,/Tp = 9(P)， 则 称 计算 具有 线性 加 速 比 。 最 后 ， 计 算 的 并 行 度 是 可 能 的 最 大 加 速 比 : 
TVT。 计 算 的 并 行 度 也 是 关键 路 径 上 每 一 个 步骤 中 可 用 工作 的 平均 数量 ， 因 此 ， 它 是 计算 中 需 
要 投入 处 理 器 数量 的 一 个 很 好 的 参考 值 。 特 别 是 ， 使 用 多 于 这 个 数目 的 处 理 器 没有 多 大 意义 。 
为 了 说 明 这 些 概念 ， 我 们 再 次 讨论 16.1 节 中 和 矩阵 加 法 和 和 矩阵 乘法 的 并 发 实现 。 
设 A,(n) 为 P 个 处 理 器 上 进行 两 个 n x n 的 矩阵 加 法 所 需要 的 步骤 数 。 回 顾 一 下 ， 和 矩阵 加 法 需 
要 4 个 一 半 大 小 的 矩阵 相 加 ， 以 及 用 于 分 解 矩 阵 的 常数 数量 的 工作 。 工 作 A1(n) 可 递归 地 给 出 : 
A(n) = 4 A,(n/2) + O(1) 
= O(n’) 
17 EA FP hs EA REE — FEA LE. 
因为 对 一 半 大 小 的 矩阵 进行 相 加 可 以 并 行 地 执行 ， 所 以 关键 路 径 长 度 由 下 式 给 出 : 
A,,(n) = A,,(n/2) + @(1) 
= O(log n) 
设 Mp(n) 为 P 个 处 理 器 上 进行 两 个 n x nM REND RA. IB, ARE REE 
需要 8 个 一 半 大 小 的 矩阵 的 乘积 和 4 个 矩阵 的 求 和 。 工 作 Mi(n) 可 以 递归 地 给 出 : 
M (n) = 8 M,(n/2) + 4A,(n) 
M,(n) = 8 M,(n/2) + O(n?) 
= O(n’) 
1k 7S 8 Ft A Pa H = REAM SAL EA PE, ERRA ATLASES Ee mk, 
加 法 同样 如 此 ， 但 是 加 法 必须 等 待 乘法 完成 。 关 键 路 径 长 度 由 下 式 给 出 : 
MOD = M,(n/2) + A,(n) 
= M.(n/2) + O(log n) 
= O(log’ n) 
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矩阵 乘法 的 并 行 度 由 下 式 给 出 : 
M,(n)/M,,(n) = O(n*/log? n) 

这 个 并 行 度 是 很 高 的 。 比 如 ， 假 设想 要 对 两 个 1000 x 1000 的 矩阵 求 积 。 这 里 ，ze = 10°, logn 
= log 1000 = 10 (log 的 底 为 2)， 所 以 并 行 度 大约 为 10%10? = 107。 粗 略 来 说 ， 这 个 矩阵 乘法 实 
例 大 约 占用 百 万 个 处 理 器 ， 远 远 超 过 稍 后 我 们 将 会 看 到 的 任何 一 种 多 处 理 器 的 能 

必须 理解 这 一 点 ， 即 这 里 所 给 的 计算 并 行 度 是 任何 多 线程 矩阵 乘法 程序 高 度 理想 化 的 性 
能 上 限 。 例 如 ， 当 线程 空 六 时 ， 将 这 些 线程 分 派 给 空闲 的 处 理 器 可 能 并 非 易 事 。 另 外 ， 一 个 
使 用 较 低 并 行 度 但 却 消 耗 更 少 存储 空间 的 程序 有 可 能 具有 更 好 的 性 能 ， 因 为 它 遇 到 的 页 故障 
更 少 。 多 线程 计算 的 实际 性 能 是 一 个 复杂 的 工程 问题 ， 但 本 章 中 所 分 析 的 内 容 是 理解 用 并 行 
方法 解决 问题 不 可 缺少 的 第 一 步 。 


16.3 多 处 理 器 的 实际 调度 


迄今 为 止 ， 我 们 的 分 析 都 是 建立 在 每 个 多 线程 程序 有 P 个 专门 的 处 理 器 的 假设 之 上 的 。 不 
幸 的 是 ， 这 种 假设 并 不 等 于 实际 的 情形 。 在 多 处 理 器 上 往往 会 运行 着 多 个 作业 ， 这 些 作业 动 
态 地 开始 和 结束 。 例 如 ， 某 个 用 户 在 P 个 处 理 器 上 启动 了 一 个 矩阵 乘法 程序 。 而 某 一 时 刻 ， 操 
作 系 统 有 可 能 决定 下 载 一 个 新 的 软件 升级 包 ， 从 而 抢占 了 一 个 处 理 器 ， 此 时 应 用 程序 运行 在 
P-1 个 处 理 器 上 。 若 升级 程序 又 要 暂停 等 待 磁盘 读 写 的 完成 ， 那 么 矩阵 计算 程序 又 拥有 了 P 个 
处 理 器 。 

现代 操作 系统 提供 了 用 户 级 别 的 线程 ， 它 包含 一 个 程序 计数 器 和 一 个 栈 。( 具 有 自己 的 地 
址 空间 的 线程 通常 被 称 为 进程 。) 操作 系统 内 核 中 有 一 个 让 线程 在 物理 处 理 器 上 运行 的 调度 器 。 
然而 ， 应 用 程序 通常 不 控制 线程 和 处 理 器 之 间 的 映射 ， 因 此 ， 无 法 控制 何 时 调度 线程 。 

如 我 们 所 知 ， 在 用 户 级 线程 和 操作 系统 级 的 处 理 器 之 间 建 立 联系 的 一 种 办 法 就 是 ， 给 软 
件 开 发 者 提供 一 种 三 级 模式 。 在 最 高 层 ， 多 线程 程序 (如 矩阵 乘法 ) 将 应 用 分 解 为 多 个 短期 
任务 ， 它 们 的 数量 是 动态 变化 的 。 在 中 间 层 ， 由 用 户 级 的 调度 器 将 这 些 任务 映射 为 固定 个 数 
的 线程 。 在 最 底层 ， 内 核 将 这 些 线程 映射 到 硬件 处 理 器 上 ， 其 可 利用 率 是 动态 变化 的 。 下 层 
的 映射 不 受 应 用 程序 的 控制 : 应 用 无 法 告诉 内 核 该 如 何 调度 线程 (特别 是 ， 商 用 操作 系统 的 
内 核对 于 用 户 来 说 是 隐藏 的 ) 。 

为 简单 起 见 ， 假 设 内 核 以 离散 的 操作 步 进行 工作 :在 第 i 步 ， 内 核 在 0<p,<P 个 用 户 级 线 
程 中 选择 任意 一 个 子 集 作为 一 个 操作 步 来 运行 ，7 个 操作 步 中 的 处 理 器 平均 数 P4 则 定义 为 : 


12 
Pana DP (16.3.1) 


我 们 不 是 设计 用 户 级 的 调度 来 获得 P 倍 的 加 速 比 , 而 是 要 获得 Ps 倍 的 加 速 比 。 若 对 于 一 种 调度 ， 
在 每 个 时 间 步 上 所 执行 的 程序 的 操作 步 个 数 是 程序 DAG 中 的 p;、 可 用 处 理 器 的 个 数 、 就 绪 结 
点 (其 相关 操作 步 已 经 做 好 执行 的 准备 ) 数 中 的 最 小 值 ， 则 称 这 种 调度 是 贪心 的 。 换 句 话 说 ， 
在 给 定 可 用 处 理 器 个 数 的 情形 下 ， 执 行 尽 可 能 多 的 就 绪 结 点 。 
定理 16.3.1 对 于 一 个 工作 为 T|、 关 键 路 径 长 度 为 T。 且 有 P 个 用 户 级 线程 的 多 线程 程序 ， 

可 以 断定 任何 贪心 执行 的 长 度 T 的 最 大 值 为 

Cr RPN 

P, P, 


Br 
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证 明 方程 式 (16.3.1) 隐 含 着 : 


T-1 


“3 bP 


我 们 通过 限制 p; 的 总 和 来 限定 7 的 范围 。 在 每 个 内 核 级 的 操作 步 i， 可 以 为 每 个 已 分 配给 一 
个 处 理 器 的 线程 指定 一 个 令 牌 。 将 这 些 令 牌 放 入 两 个 桶 中 的 一 个 。 对 于 步骤 站 每 个 执行 结 点 
的 用 户 级 线程 ， 我 们 将 一 个 令 牌 放 入 一 个 工作 桶 中 ， 对 于 步骤 ;中 每 个 空闲 的 线程 〈 即 已 分 配 
给 一 个 处 理 器 ,但 因为 其 下 一 步 相关 的 结 点 有 依赖 ， 必 须 等 待 其 他 的 线程 ， 所 以 还 没有 准备 
就 绪 )， 我 们 将 一 个 令 牌 放 入 一 个 空闲 桶 中 。 在 最 后 一 步 完 成 之 后 ， 工 作 桶 中 有 个 令 牌 ,每 
个 令 牌 为 该 计算 DAG 的 一 个 结 点 。 那 么 空闲 桶 中 有 多 少 个 令 牌 ? 

我 们 将 一 个 空闲 操作 步 定义 为 : 在 这 个 步骤 中 ， 某 个 线程 将 一 个 令 牌 放 入 空闲 桶 中 。 因 
为 应 用 仍 在 执行 ， 所 以 在 每 个 步 又 中 ， 至 少 有 一 个 结 点 准备 就 绪 。 又 因为 调度 是 贪心 的 ， 那 
么 至 少 有 一 个 结 点 将 被 调度 ， 所 以 ， 至 少 有 一 个 处 理 器 不 是 空间 的 。 这 样 ， 在 步骤 i 中 被 调度 
的 p; 个 线程 中 ， 最 多 有 pi 一 1<P 一 1 个 线程 是 空间 的 。 

那么 可 能 有 多 少 个 空闲 操作 步 呢 ? 令 G 为 在 步骤 ;结束 时 还 没有 执行 的 结 点 所 组 成 的 计算 
的 子 DAG。 在 G-,， (例如 ， 在 步 又 6 结束 时 ，FibTask(2) 中 的 最 后 一 个 结 点 ) 中 ， 每 个 没有 输 
入 边 的 结 点 (除了 在 程序 次 序 中 它 的 前 驱 以 外 ) 在 步 又 ;开始 时 就 已 准备 就 绪 。 这 种 结 点 的 个 
数 必 定 小 于 p; 个 ， 因 为 否则 的 话 ， 贪 心 调度 能 够 执行 p; 个 这 种 结 点 ， 那 么 步骤 i 就 不 是 空间 的 。 
因此 ， 调 度 器 必定 已 执行 了 这 一 步 。 由 此 推出 G; 的 最 长 有 向 路 径 要 比 G;_ ,的 最 长 有 向 路 径 短 。 
在 步骤 0 之 前 的 最 长 有 向 路 径 是 7-， 所 以 贪心 调度 最 多 有 7< 个 空闲 操作 步 。 从 这 些 结论 中 ， 可 
以 推导 出 最 多 有 7- 个 空闲 操作 步 被 执行 ， 且 在 每 个 操作 步 中 最 多 加 入 (PE- 了 个 令 牌 ， 所 以 空闲 
桶 中 最 多 有 7-(P-D 个 令 牌 。 

因此 ， 两 个 桶 中 的 令 牌 总 数 为 


T-1 
H +T(P-) 





从 而 导出 给 定 的 界限 。 
由 此 可 知 ， 这 个 界限 是 两 个 优化 因素 中 的 一 个 。 事 实 上 ， 获 得 一 个 最 优 的 调度 是 NP 完 全 
(NP-complete) 问题 ， 所 以 ， 贪 心 调度 是 获得 接近 于 最 优 性 能 的 一 种 简单 而 实用 的 方法 。 


16.4 工作 分 配 


我 们 现在 理解 了 获得 好 的 加 速 比 的 关键 就 是 要 保持 由 任务 所 提供 的 用 户 级 线程 ， 从 而 使 
调度 尽 可 能 贪心 。 然 而 ， 多 线程 计算 是 动态 地 创建 和 清除 任务 的 ， 有 了 时 是 无 法 预测 的 。 因 此 ， 
需要 一 种 工作 分 配 算法 来 尽 可 能 有 效 地 将 就 绪 的 任务 分 配给 空闲 的 线程 。 

工作 分 配 的 一 种 简单 办 法 就 是 工作 交易 (work dealing): 一 个 超 负荷 的 任务 尝试 着 将 任 
务 分 给 其 他 的 轻 负 荷 线程 来 减轻 负担 。 这 种 方法 看 起 来 很 明智 ， 但 却 存 在 一 个 致命 的 缺点 : 
如 果 大 多 数 线程 都 是 超 负荷 的 ， 那 么 它们 将 会 把 时 间 浪 费 在 交换 任务 的 无 用 的 尝试 中 。 相 反 ， 
我 们 首先 考虑 工作 窃取 (work stealing): 一 个 无 法 工作 的 线程 尝试 着 从 其 他 线程 那里 “偷窃 
工作 。 工 作 窃 取 的 优点 之 一 就 是 ， 如 果 所 有 的 线程 都 处 于 忙 状态 ， 那 么 它们 不 必 浪 费时 间 去 
尝试 将 任务 分 给 其 他 线程 。 
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16.4.1 工作 窃取 


每 个 线程 以 双 痛 队列 (double-ended queue, DEQueue) 的 形式 保持 一 个 等 待 执行 的 任务 池 。 
这 个 队列 提供 了 pushBottom( )、popBottom( ) 和 popTop() 方 法 (不 需要 pushTop( ) 方 法 ) 。 当 
线程 创建 一 个 新 任务 时 ， 它 就 调用 pushBottom( ) 方 法 将 这 个 任务 加 入 它 的 DEQueue 中 。 当 线 
程 需要 一 个 任务 继续 工作 时 ， 它 就 调用 popBottom( ) 方 法 从 它 自己 的 DEQueue 中 删除 一 个 任务 。 
如 果 线 程 发 现 它 的 队列 为 空 ， 它 就 变 成 一 个 偷窃 者 : 随机 地 选择 一 个 牺牲 者 (victim) 线程 ， 
并 调用 该 线程 的 DEQueue 的 popTop( ) 方 法 ， 为 自己 “偷窃 ”一 个 任务 。 

在 16.5 节 中 我 们 设计 了 一 种 高 效 的 可 线性 化 的 DEQueue 实 现 。 图 16-8 描 述 了 一 种 实现 工作 窒 
取 执 行者 服务 所 使 用 的 线程 的 方法 。 这 些 线程 共享 一 个 DEQueue 数 组 (第 2 行 )， 每 个 DEQueue 对 
应 一 个 线程 。 每 个 线程 不 断 地 从 它 自己 的 DEQueue 中 删除 一 个 任务 ， 并 执行 它 (4912 ~ 1547), 
如 果 它 无 法 工作 ， 则 不 断 地 随机 选择 一 个 辆 牲 者 线程 ， 并 尝试 从 这 个 牺牲 者 的 DEQueue 头 窃取 
一 个 任务 〈 第 16~22 行 )。 为 了 避免 代码 混乱 ， 我 们 忽略 了 窃取 时 触发 异常 的 可 能 


public class WorkStealingThread { 
DEQueue[] queue; 
Random random; 
public WorkStealingThread(DEQueue[] myQueue) { 
queue = myQueue; 
random = new Random(); 
} 
public void run() { 
int me = ThreadID.get(); 
Runnable task = queue [me] .popBottom(); 
while (true) { 
while (task != null) { 
task.run(); 


task = queue[me] .popBottom() ; 


while (task == null) { 
Thread. yield(); 
int victim = random.nextInt (queue. length); 
if (!queue[victim] .isEmpty()) { 
task = queue[victim] .popTop(); 














图 16-8 WorkStealingThread 类 : 一 种 简化 的 工作 窃取 执行 者 池 

若 所 有 队列 中 的 所 有 工作 都 已 完成 了 很 长 时 间 ， 这 个 简化 的 执行 者 地 可 能 一 直 在 尝试 窃 
取 。 为 了 避免 线程 陷入 对 不 存在 的 任务 无 休止 的 搜索 中 ， 我 们 可 以 使 用 一 种 将 在 第 17 章 17.6 
节 中 详细 描述 的 终止 检测 路 障 。 


16.4.2 届 从 和 多 道 程序 设计 

如 前 所 述 ， 多 处 理 器 提供 了 三 级 计算 模式 ， 短期 的 任务 由 系统 级 的 线程 执行 ， 而 线程 又 
由 操作 系统 在 固定 数量 的 处 理 器 上 调度 执行 。 所 谓 多 程序 设计 环境 ， 是 指 线程 个 数 多 于 处 理 
器 个 数 的 环境 ， 这 意味 着 在 同一 时 刻 ， 所 有 的 线程 不 能 同时 运行 ， 任 何 线程 在 任意 时 刻 都 可 
以 被 抢占 所 挂 起 。 为 了 保证 向 前 推进 ， 必 须 保 证 那些 仍 有 工作 要 做 的 线程 不 能 无 故地 被 除了 
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工作 窃取 以 外 无 事 可 做 的 偷窃 者 线程 所 延迟 。 为 了 避免 这 种 情况 的 发 生 ， 我 们 让 每 个 偷窃 者 
在 试图 窃取 一 个 工作 之 前 ， 立 即 调用 Thread.yie1d() (图 16-8 中 第 17 行 )。 这 个 调用 将 偷窃 者 
的 处 理 器 让 给 另 一 个 线程 ， 从 而 允许 未 被 调度 的 线程 重新 获得 一 个 处 理 器 以 继续 推进 。( 要 注 
意 ， 如 果 没 有 能 够 运行 的 未 调度 线程 ， 那 么 调用 yie1d( ) 就 没有 意义 。) 


16.5 工作 窃取 双 端 队列 


下 面 阐 述 如 何 实现 工作 窃取 DEQueue。 理 想 情形 下 ， 如 果 有 可 用 的 任务 ， 那 么 工作 窃取 算 
法 应 该 提供 可 线性 化 的 实现 ， 其 出 队 方法 应 总 是 返回 一 个 任务 。 然 而 在 实际 中 ， 我 们 可 以 采 
用 更 弱 的 条 件 ， 人 允许 popTop( ) 调 用 在 它 与 一 个 并 发 的 popTop( ) 调 用 相 冲突 时 返回 mz1。 虽 然 
可 以 简单 地 让 失败 的 偷窃 者 重新 尝试 ， 但 在 这 种 情形 下 ， 让 线程 每 次 在 一 个 不 同 的 、 随 机 选 
择 的 DEQueue 上 重 试 popTop( ) 操 作 则 更 有 意义 。 为 了 支持 这 种 重 试 ，popTop() 调 用 在 它 与 并 
发 的 popTop( ) 调 用 相 冲 突 时 可 以 返回 null。 

下 面 描述 工作 窃取 DEQueue 的 两 种 实现 ， 第 一 种 比较 简单 ， 因 为 它 具 有 有 界 的 容量 ;第 二 
种 稍微 复杂 一 些 ， 但 实质 上 它 的 容量 不 受 限 ， 也 就 是 说 ， 它 没有 溢出 的 可 能 。 


16.5.1 有 界 工作 窃取 双 端 队列 


对 于 执行 者 池 DEQueue 来 说 ,通常 出 现 的 情形 是 ， 线 程 调 用 pushBottom( ) 和 popBottom( ) 
从 它 自己 的 队列 中 入 队 或 者 出 队 任务 。 不 常 发 生 的 情形 是 ， 线 程 调用 popTop( ) 方 法 从 另 一 个 
线程 的 DEQueue 中 窃取 任务 。 显 然 ， 对 通常 的 情形 进行 优化 是 有 意义 的 。 图 16-9 和 图 16-10 中 
BoundedDEQueue (有 界 双 端 队列 ) 的 基本 思想 就 是 让 pushBottom( ) 和 popBottom( ) 方 法 在 通 
常情 形 下 仅 使 用 读 / 写 操作 。 如 图 16-11 所 示 ，BoundedDEQueue 是 一 个 由 任务 所 组 成 的 数组 ， 并 
由 指向 该 双 端 队列 底部 和 顶部 的 bottom 和 top 域 来 索引 。pushBottom( ) 和 popBottom( ) 方 法 采 
用 读 / 写 方式 对 pottom 引 用 进行 操作 。 然 而 ， 一 旦 bottom 和 top 域 很 接近 (数组 中 可 能 只 有 一 
个 元 素 )，popBottom( ) 则 转 而 调用 compareAndSet( )， 以 便 与 潜在 的 popTop( ) 调 用 进行 协调 。 





1 public class BDEQueue { 

2 Runnable[] tasks; 

3 volatile int bottom; 

4 AtomicStampedReference<Integer> top; 

5 public BDEQueue(int capacity) { 

6 tasks = new Runnable[capacity]; 

7 top = new AtomicStampedReference<Integer>(0, 0); 
8 


bottom = 0; 
9 } 
10 public void pushBottom(Runnable r) { 
11 tasks[bottom] = r; 
12 bottom++; 
13 } 


14 // called by thieves to determine whether to try to steal 
15 boolean isEmpty() { 


16 int localTop = top.getReference(); 
17 int localBottom = bottom; 

18 return localBottom <= localTop; 

19 } 








a) | 


图 16-9 BoundedDEQueueXt; 域 、 构 造 函 数 、 pushBottom( ) 和 isEmpty( ) 方 法 
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1 public Runnable popTop() { 

2 int[] stamp = new int[1]; 

3 int oldTop = top.get(stamp), newTop = oldTop + 1; 

4 int oldStamp = stamp[0], newStamp = oldStamp + 1; 

5 if (bottom <= oldTop) 

6 return null; 

7 Runnable r = tasks[oldTop]; 

8 if (top.compareAndSet(oldTop, newTop, oldStamp, newStamp)) 


9 return r; 

10 return null; 

11 } 

12 public Runnable popBottom() { 

13 if (bottom == 0) 

14 return null; 

15 bottom--; 

16 Runnable r = tasks[bottom]; 

17 int[] stamp = new int[1]; 

18 int oldTop = top.get(stamp), newTop = 0; 
19 int oldStamp = stamp[0], newStamp = oldStamp + 1; 
20 if (bottom > oldTop) 

21 return r; 

22 if (bottom == oldTop) { 

23 bottom = 0; 

24 if (top.compareAndSet(oldTop, newTop, oldStamp, newStamp) ) 
25 return r; 

26 } 

27 top.set (newTop, newStamp) ; 

28 bottom = 0; 

29 return null; 

30 } 





图 16-10 BoundedDEQueue 类 : popTop() 和 popBottom( ) 方 法 


stamp 





bottom 






a) 





图 16-11 BoundedDEQueue 的 实现 。 在 a 中 ，popTop() 和 popBottom( ) 被 并 发 地 调用 ， 此 时 ， 
BoundedDEQueue 中 至 少 有 一 个 任务 。popTop( ) 方 法 读数 组 项 2 中 的 元 素 ， 并 调用 
compareAndSet( ) 重 设 top 引 用 指向 数组 项 3。popBottom( ) 方 法 采用 一 个 简单 的 写 操 
作 将 bottom 引 用 由 5 改 为 4， 然 后 ， 在 确认 bottom 大 于 top 之 后 ， 删 除数 组 项 4 中 的 任 
务 。 在 b 中 ， 只 有 一 个 单一 的 任务 。 当 popBottom( ) 检 测 到 将 4 改 为 3 之 后 ，top 和 
bottom 相 等 ， 它 就 尝试 用 compareAndSet( ) 重 新 设置 top。 在 进行 这 个 操作 之 前 ， 它 
让 bottom 重 新 指向 0， 因 为 最 后 一 个 任务 将 被 两 个 pop 方 法 中 的 一 个 删除 。 如 果 
popTop( ) 检 测 到 top 和 bottom 相 等 ， 则 放弃 ， 否 则 ， 它 将 尝试 用 compareAndSet( ) 来 增 
加 top。 如 果 两 个 方法 都 对 top 使 用 compareAndSet()， 那 么 其 中 一 个 将 会 成 功 并 删除 
该 任务 。 无 论 成 功 或 失败 ，popBottom( ) 都 重 设 top 为 0， 因 为 该 BoundedDEQueue 为 空 
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现在 来 解释 算法 的 细节 。BoundedDEQueue 算 法 的 精妙 之 处 就 在 于 它 避 免 了 使 用 成 本 较 高 
的 compareAndSet( ) 调 用 。 这 种 方式 需要 一 点 代价 : 它 很 微妙 ， 指 令 之 间 的 次 序 至 关 重 要 。 
建议 读者 花 点 时 间 去 理解 方法 之 间 的 相互 作用 是 如 何 由 读 / 写 和 compareAndSet( ) 调 用 的 次 序 

BoundedDEQueue 类 有 三 个 域 : tasks、bottom 和 top (图 16-9 第 2 一 4 行 )。tasks 域 是 一 个 
由 Runnab1le 任 务 组 成 的 数组 ， 用 来 存放 队列 中 的 任务 。bottom 域 是 tasks 中 第 一 个 空 槽 的 索 
引 。top 域 是 一 个 AtomicStampedReference<Integer>S。top 域 包含 有 两 个 逻辑 域 ，3 引 用 
(reference) 是 队列 中 第 一 个 任务 的 索引 ， Wee (stamp) 是 一 个 计数 器 ， 每 次 引用 改变 
时 ， 它 就 被 递增 。 使 用 时 间 惟 是 为 了 避免 出 现 使 用 compareAndSet( ) 时 经 常 出 现 的 ABA 问 题 。 
假设 线程 4 试图 从 索引 3 窃取 一 个 任务 。A 读 取 该 位 置 任务 的 引用 ,调用 compareAndSet( ) 将 索 
引 置 为 4 以 尝试 窃取 这 个 任务 。 在 进行 调用 之 前 4 被 延迟 ， 与 此 同时 ， 线 程 B 删 除 所 有 的 任务 ， 
并 插入 三 个 新 任务 。 当 4 被 唤醒 时 ， 它 的 compareAndSet( ) 调 用 成 功 地 将 索引 从 3 改 为 4+， 但 是 
它 将 窃取 一 个 已 经 完成 的 任务 。 时 间 惟 能 保证 4 的 compareAndSet( ) 调 用 失败 ， 因 为 时 间 惟 不 
再 匹配 。 

popTop( ) 方 法 (图 16-10) 检查 BoundedDEQueue 是 否 为 空 ， 如 果 不 为 空 ， 则 调用 
compareAndSet( ) 递 增 top, 以 尝试 窃取 头 元 素 。 如 果 compareAndSet() 成 功 ， 则 这 次 窃取 成 功 ， 
否则 ， 该 方法 简单 地 返回 null。 这 个 方法 是 不 确定 的 : 返回 null 并 不 能 说 明 队 列 为 空 。 

如 前 所 述 ， 我 们 对 通常 的 情形 进行 优化 ， 此 时 每 个 线程 都 从 它 自己 的 本 地 BoundedDEQueue 
中 入 队 和 出 队 。 大 部 分 时 间 里 ， 线 程 能 够 出 队 或 入 队 自 己 的 BoundedDEQueue 对 象 ， 只 需 简 单 
地 装载 或 存储 pottom 索 引 。 如 果 队 列 中 只 有 一 个 任务 ， 那 么 调用 者 有 可 能 与 试图 窃取 这 个 任 
务 的 偷 窗 者 相 冲 突 。 所 以 ， 如 果 bottom 接 近 top， 那 么 调用 者 线程 要 转 而 使 用 compareAndSet() 
来 出 队 任 务 。 

pushBottom( ) 方 法 (图 16-9 第 10 行 ) 简单 地 将 新 任务 存储 在 队列 的 bottom 位 置 ， 并 递增 
bottom。 

popBottom( ) 方 法 (图 16-10) 比较 复杂 。 如 果 队 列 为 空 ， 方法 立刻 返回 (第 13 行 )， 否则 ， 
它 递减 bottom， 并 声明 一 个 任务 (第 15 行 )。 下 面 这 点 很 微妙 但 也 很 重要 ， 如 果 被 声明 的 任务 
是 队列 中 的 最 后 一 个 ， 那 么 偷窃 者 能 注意 到 BoundedDEQueue 为 空 则 是 非常 重要 的 (第 5 行 )。 
但 是 ， 由 于 popBottom( ) 的 递减 既 不 是 原子 的 也 不 是 同步 的 ， 所 以 Java 的 存储 模型 并 不 能 保证 
这 次 递减 恰好 被 并 发 的 偷窃 者 观测 到 。 为 了 保证 偷窃 者 可 以 识别 空 的 goundedDEQueue， 
bottom 域 必须 被 声明 为 volatile 类 型 的 9。 

递减 之 后 ， 调 用 者 读 取 新 的 bottom 索 引 处 的 任务 (第 16 行 )， 并 测试 当前 的 top 域 是 否 指 
向 更 高 的 索引 。 如 果 是 ， 调 用 者 不 会 与 偷窃 者 相 冲 突 ， 方法 返回 (第 20 行 )。 否 则 ， 如 果 top 
和 bottom 域 相等 ， 那 么 在 BoundedDEQueue 中 只 有 一 个 任务 ， 也 存在 着 调用 者 与 偷窃 者 相 冲 突 
的 危险 。 调 用 者 重 设 bottom 为 0 (第 23 行 )。( 要 么 调用 者 成 功 地 声明 这 个 任务 ， 要 么 偷窃 者 先 
窃取 了 它 。) 调用 者 通过 调用 compareAndSet( ) 将 top 重 设 为 0， 使 其 与 bottom 相 匹配 ， 从 而 解 
决 可 能 存在 的 冲突 (第 22 行 )。 如 果 这 个 compareAndSet() 成 功 ， 那 么 top 已 被 重 设 为 0 且 任 务 


日 ” 见 第 10 章 编程 提示 10.6.1。 
日 ”在 C 或 者 C++ 实 现 中 ， 需 要 引入 一 个 写 路 障 ， 如 附录 B 所 示 。 


第 16 章 “异步 执行 、 调 度 和 工作 分 配 279 


已 被 声明 ， 所 以 方法 返回 。 否 则 ， 队 列 肯 定 为 空 ， 因 为 偷窃 者 已 成 功 ， 但 这 就 意味 着 top 指 癌 
某 个 比 bottom ( 早 些 时 候 已 经 被 设置 为 0) 更 高 的 数组 项 。 因 此 ， 在 调用 者 返回 null 之 前 ， 它 
将 top 重 设 为 0 (第 27 行 )。 

这 个 设计 吸引 人 的 地 方 就 在 于 ， 开 销 较 大 的 compareAndSet() 很 少 被 调用 ， 仅 仅 当 
BoundedDEQueue 近 平 为 空 的 时 候 才 会 调用 。 

我 们 可 以 在 popTop( ) 检 测 到 BoundedDEQueue 为 空 ， 或 者 compareAndSet() 失 败 的 时 刻 线 
性 化 每 个 不 成 功 的 popTop( ) 调 用 。 成 功 的 popTop( ) 调 用 可 以 在 成 功 的 compareAndSet( ) 发 生 
的 时 刻 被 线性 化 。 在 bottom 递 增 的 时 刻 可 以 线性 化 pushBottom( ) 调 用 ， 而 在 bottom 递 减 或 被 
设置 为 0 的 时 刻 ， 可 以 线性 化 popBottom( ) 调 用 ， 尽 管 在 后 一 种 情况 下 ，popBottom( ) 的 结果 
是 由 接 下 来 compareAndSet () 的 成 功 与 否决 定 的 。 

isEmpty() 方 法 (图 16-13) 首先 读 top ， 然 后 读 bottom， 再 检查 bottom 是 否 小 于 等 于 top 
(第 4 行 )。 操作 次 序 对 于 可 线性 化 来 说 很 重要 ,因为 top 不 会 减少 , 除非 bottom 首 先 被 重 设 为 0， 
所 以 ， 如 果 一 个 线程 在 读 了 top 之 后 再 读 bottom， 并 发 现 bottom 不 再 大 于 top， 那 么 队列 确实 
为 空 ， 因 为 对 top 的 并 发 修改 只 能 增加 top。 另 一 方面 ， 如 果 bottom 比 top 大 ， 那 么 即使 在 读 
top 之 后 和 读 bottom 之 前 top 被 增加 (并且 队列 变 为 空 )， 当 读 top 的 时 候 ，BoundedDEQueue 也 
不 为 空 。 唯 一 的 选择 是 将 bottom 重 设 为 0， 然 后 将 top 重 设 为 0。 所 以 ， 读 top 再 读 bottom 将 正 
确 地 返回 空 。 从 而 可 知 ，isEmpty() 方 法 是 可 线性 化 的 。 


16.5.2 无 界 工作 窃取 双 端 队列 


BoundedDEQueue 类 的 局 限 性 就 在 于 它 要 求 队列 具有 固定 的 大 小 。 而 对 某 些 应 用 来 说 ， 有 
可 能 很 难 预测 这 种 大 小 ， 特 别 是 在 某 些 线程 创建 的 任务 要 比 其 他 线程 多 得 多 的 情形 下 。 为 每 
个 线程 都 分 配 具 有 最 大 容量 的 BoundedDEQueue 将 会 非常 浪费 空间 。 

为 了 解决 这 种 局 限 性 ， 下 面 考虑 一 种 无 界 双 端 队列 (UnboundedDEQueue) 类 ， 它 能 按 需 
动态 地 调整 自己 的 大 小 。 

我 们 用 一 个 循环 数组 来 实现 UnboundedDEQueue， 其 top 和 bottom 域 与 BoundedDEQueue 中 
一 样 (除了 求索 引 时 要 对 数组 容量 求 模 以 外 )。 和 前 面 一 样 ， 如 果 bottom 小 于 或 等 于 top， 则 
UnboundedDEQueue 为 空 。 使 用 循环 数组 不 再 需要 重 设 bottom 和 top 为 0。 另 外 ， 它 只 允许 top 递 
增 而 不 能 递减 ， 从 而 不 必要 求 top 为 AtomicStampedReference。 再 者 ， 在 UnboundedDEQueue 
算法 中 ， 如 果 pushBottom( ) 发 现 当前 的 循环 数组 已 满 ， 它 可 以 重新 调整 大 小 (扩大 )， 将 任务 
拷贝 到 一 个 更 大 的 数组 中 去 ， 并 将 新 任务 入 队 到 新 的 (更 大 的 ) 数组 中 。 因 为 数组 的 索引 是 
对 它 的 容量 求 模 所 得 ， 所 以 将 元 素 移 到 更 大 的 数组 中 时 ， 不 需要 修改 top 和 bottom 域 (尽管 存 
放 元 素 的 实际 数组 索引 可 能 会 改变 )。 

CircularTaskArray() 类 如 图 16-12 所 示 。 它 提供 了 添加 和 删除 任务 的 get( ) 和 put( ) 方 法 ， 
以 及 分 配 一 个 新 的 循环 数组 并 将 老 数 组 中 的 内 容 拷贝 到 新 数组 中 的 resize( ) 方 法 。 使 用 模 算 
术 能 够 保证 即使 数组 的 大 小 已 改变 、 任 务 的 位 置 有 可 能 改变 ， 偷 窃 者 也 可 以 使 用 top 域 找到 下 
一 个 要 窃取 的 任务 。 

UnboundedDEQueue 类 有 三 个 域 : tasks、bottom 和 top (图 16-13 第 3 一 5 行 )。popBottom( ) 
和 popTop() 方 法 (图 16-14) 与 BoundedDEQueue 中 相应 的 方法 基本 上 相同 ， 只 有 一 个 关键 的 
不 同 之 处 : 使 用 模 算 术 计 算 索 引 意味 着 top 索 引 决 不 会 减 小 。 如 我 们 所 知 ， 没 有 必要 
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1 class CircularArray { 

2 private int logCapacity; 

3 private Runnable[] currentTasks; 

4 CircularArray(int myLogCapacity) { 
5 logCapacity = myLogCapacity; 
6 

7 

8 

















currentTasks = new Runnable[1 << logCapacity]; 
} 
int capacity() { 









9 return 1 << logCapacity; 

10 } 

il Runnable get(int i) { 

12 return currentTasks[i % capacity()]; 
13 } 

14 void put(int i, Runnable task) { 

15 currentTasks[i % capacity()] = task; 
16 } 

17 CircularArray resize(int bottom, int top) { 
18 CircularArray newTasks = 

19 new CircularArray(logCapacity+1) ; 
20 for (int i = top; i < bottom; i++) { 
21 newTasks.put(i, get(i)); 

22 } 

23 return newTasks; 

24 } 






} 






图 16-12 UnboundedDEQueueXt: 循环 的 任务 数组 





— 

1 public class UnboundedDEQueue { 

2 private final static int LOG CAPACITY = 4; 
3 private volatile CircularArray tasks; 

4 volatile int bottom; 

5 AtomicInteger top; 

6 public UnboundedDEQueue(int LOG CAPACITY) { 
7 tasks = new CircularArray(LOG CAPACITY); 
8 top = new AtomicInteger(0); 

9 bottom = 0; 

lo} 

11 boolean isEmpty() { 

12 int localTop = top.get(); 

13 int localBottom = bottom; 

14 return (localBottom <= localTop); 

15 } 

16 

17 public void pushBottom(Runnable r) { 

18 int oldBottom = bottom; 

19 int oldTop = top.get(); 

20 int size = oldBottom - oldTop; 

21 if (size >= currentTasks.capacity()-1) { 
22 currentTasks = currentTasks.resize(oldBottom, oldTop); 
23 tasks = currentTasks; 

24 } 
25 tasks.put(oldBottom, r); 

26 bottom = oldBottom + 1; 





| 2 } 


图 16-13 UnboundedDEQueue 类 : 域 、 构 造 函 数 、 pushBottom( ) 和 isEmpty() 方 法 
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使 用 时 间 惟 来 避免 ABA 问 题 。 当 两 个 方法 竞争 最 后 一 个 任务 时 ， 都 是 通过 增加 top 来 窃取 该 任 
务 。 为 了 将 UnboundedDEQueue 重 新 设置 为 空 ， 只 需 简 单 地 将 bottom 域 增加 为 与 top 相 同 即 可 。 
在 代码 中 ， 紧 接 在 第 25 行 的 compareAndSet( ) 之 后 的 popBottom( )， 无 论 该 compareAndSet() 
成 功 与 否 ， 都 将 bottom 设 置 为 top+1， 因 为 即使 它 失败 了 ， 一 个 并 发 的 偷窃 者 也 必定 已 经 窃取 
了 最 后 一 个 任务 。 将 top+1 存 人 bottom 能 使 top 和 bottom 相 等 ， 从 而 将 UnboundedDEQueue 对 象 
重新 设置 为 空 。 





1 public Runnable popTop() { 

2 int oldTop = top.get(); 

3 int newTop = oldTop + 1; 

4 int oldBottom = bottom; 

5 int size = oldBottom - oldTop; 
6 if (size <= 0) return null; 

7 Runnable r = tasks.get(oldTop); 
8 if (top.compareAndSet(oldTop, newTop)) 
9 return r; 

10 return null; 

11 } 

12 

13 public Runnable popBottom() { 

14 bottom--; 

15 int oldTop = top.get(); 

16 int newlop = oldTop + 1; 

17 int size = bottom - oldTop; 

18 if (size < 0) { 

19 bottom = oldTop; 
20 return null; 

21 } 
22 Runnable r = tasks.get (bottom) ; 
23 if (size > 0) 
24 return r; 
25 if (!top.compareAndSet(oldTop, newTop)) 
26 r = null; 

27 bottom = oldTop + 1; 
28 return r; 
29 } 











图 16-14 UnboundedDEQueue2é: popTop() 和 popBottom( ) 方 法 


isEmpty( ) 方 法 (图 16-13) 首先 读 top ， 然 后 读 bottom， 再 检查 bottom 是 否 小 于 或 等 于 
top (第 4 行 )。 操 作 的 次 序 非常 重要 ， 因 为 top 决 不 会 减 小 ， 所 以 ， 如 果 一 个 线程 在 读 top 之 后 
再 读 bottom， 且 发 现 bottom 不 大 于 top， 那 么 队列 确实 为 空 ， 因 为 对 top 的 一 个 并 发 修改 只 能 
增加 top。 同 样 的 原理 也 适用 于 popTop( ) 方 法 调用 。 图 16-15 给 出 了 一 个 执行 实例 。 

pushBottom( ) 方 法 (图 16-13) 和 BoundedDEQueue 中 基本 上 相同 。 一 个 不 同 之 处 在 于 ， 
如 果 当 前 的 push 将 会 导致 超出 容量 ， 那 么 这 个 方法 必须 扩大 循环 数组 的 容量 。 另 一 个 不 同 之 
处 是 ，popTop() 不 需要 时 间 惟 操作。 调整 大 小 的 能 力 是 有 代价 的 : 每 次 调用 必须 读 top (%20 
行 )， 以 决定 是 否 有 必要 调整 大 小 ， 这 有 可 能 导致 更 多 的 cache 缺 失 ， 因 为 top 要 被 所 有 的 进程 
修改 。 我 们 可 以 让 线程 保存 top 的 本 地 值 并 用 它 来 计算 UnboundedDEQueue 对 象 的 大 小 ， 从 而 
降低 这 种 开销 。 一 个 线程 仅仅 在 超过 这 个 界限 的 时 候 读 top 域 ， 以 确定 resize( ) 是 否 必要 。 即 
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使 共享 top 的 改变 使 得 本 地 拷贝 变 为 过 时 ，top 也 不 会 减 小 ， 所 以 UnboundedDEQueue 对 象 的 实 
际 大 小 只 可 能 比 使 用 局 部 变量 计算 出 的 值 小 。 














bottom top bottom top 
a) b) 


图 16-15 UnboundedDEQueue 类 的 实现 。 在 a 中 ，popTop() 和 popBottom( ) 并 发 地 执行 ， 同 时 在 
UnboundedDEQueue 对 象 中 至 少 有 一 个 任务 。 在 b 中 ， 只 有 一 个 单一 的 任务 ， 初 始 时 ， 
bottom 指 向 数组 项 3，top 指 向 2。popBottom( ) 方 法 首先 将 bottom 从 3 减 为 2 (用 指向 
数组 项 2 的 虚线 表示 这 个 改变 ， 因 为 它 马 上 就 要 再 次 改变 ) 。 然 后 ， 当 popBottom( ) 检 
测 到 最 新 设置 的 bottom 和 top 之 间 的 差距 为 0 时 ， 就 试图 将 top 增 加 1 (而 不 是 像 在 
BoundedDEQueue 中 那样 将 它 重 设 为 0) 。popTop ( ) 方 法 进行 同样 的 尝试 。top 域 将 被 
它们 中 的 一 个 所 增加 ， 获 胜 者 将 得 到 最 后 一 个 任务 。 最 后 ，popBottom( ) 方 法 将 
bottom 置 回 数组 项 3， 它 与 top 相 同 


总 而 言 之 ， 我 们 已 研究 了 两 种 设计 可 线性 化 无 阻塞 0[Queue 类 的 方法 。 我 们 可 以 摆脱 在 
DEQueue 的 通常 操作 中 只 使 用 加 载 /存储 的 方式 ， 但 这 是 以 更 复杂 的 算法 为 代价 的 。 对 于 某 些 
应 用 来 说 是 有 理由 采用 这 种 算法 的 ， 例 如 ， 执 行者 池 ， 其 性 能 可 能 对 并 发 多 线程 系统 起 着 决 
定性 的 作用 。 


16.5.3 工作 平衡 


我 们 已 知 在 工作 窃取 算法 中 ， 空 闲 线程 从 其 他 线程 那里 窃取 任务 。 一 个 可 选 的 方法 是 ， 
让 每 个 线程 随机 地 选择 一 个 伙伴 ， 并 周期 性 地 对 其 工作 负载 进行 平衡 。 为 了 确保 较 重 负载 的 
线程 不 把 精力 浪费 在 负载 平衡 的 尝试 中 ， 我 们 尽量 让 轻 负载 的 线程 来 初始 化 负载 平衡 。 更 确 
切 地 说 ， 每 个 线程 周期 性 地 投 搓 硬币， 决定 是 否 与 其 他 线程 进行 平衡 。 线 程 进行 平衡 的 概率 
与 该 线程 队列 中 的 任务 数 成 反比 。 也 就 是 说 ， 具 有 较 少 任务 的 线程 更 有 可 能 去 重新 平衡 ， 而 
无 事 可 做 的 线程 则 必定 会 进行 平衡 。 线 程 一 律 随 机 地 选择 一 个 牺牲 者 来 平衡 负载 ， 如 果 它 和 
牺牲 者 的 负载 之 间 的 差异 超过 一 个 预先 设 定 的 阔 值 ， 则 迁移 任务 ， 直 到 它们 的 队列 包含 同样 
数目 的 任务 为 止 。 可 以 证 明 ， 该 算法 提供 了 很 强 的 公平 性 保证 : 每 个 线程 任务 队列 的 预期 长 
度 非 常 接近 于 平均 值 。 该 算法 的 一 个 优点 是 ， 在 每 次 交换 中 ， 平 衡 操作 移动 多 个 任务 。 第 二 
个 优点 体现 在 一 个 线程 的 任务 比 其 他 线程 多 很 多 的 时 候 ， 特 别 是 当 各 个 任务 要 求 大 致 相同 的 
计算 的 时 候 。 在 这 里 给 出 的 工作 窃取 算法 中 ， 当 多 个 线程 试图 从 超 负载 的 线程 中 窃取 不 同 的 
任务 时 ， 则 可 能 发 生 争 用 。 

在 这 种 情况 下 ， 在 工作 窃取 执行 者 池 中 ， 如 果 某 个 线程 有 很 多 任务 ， 很 可 能 发 生 以 下 情 
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Uo: 其 他 的 线程 将 会 不 断 地 在 同一 个 本 地 任务 队列 上 竞争 ， 试 图 每 次 最 多 窃取 一 个 任务 。 另 
一 方面 ， 在 工作 共享 的 执行 者 池 中 ， 一 次 平衡 多 个 任务 则 意味 着 工作 将 很 快 在 任务 中 传播 开 ， 
对 每 个 单独 的 任务 不 会 产生 同步 开销 。 

图 16-16 描 述 了 一 个 工作 共享 的 执行 者 。 每 个 线程 有 它 自己 的 任务 队列 ， 被 保存 于 一 个 由 
所 有 线程 共享 的 数组 中 〈 第 2 行 )。 每 个 线程 不 断 地 从 它 的 队列 中 取出 下 一 个 任务 (第 12 行 )。 
如 果 队 列 为 空 ， 那 么 deq( ) 调 用 返回 zz11， 否 则 ， 线 程 运行 这 个 任务 (第 13 行 )。 此 时 ， 线 程 决 
定 是 否 进行 负载 平衡 。 如 果 线 程 的 任务 队列 大 小 为 *， 那 么 线程 决定 进行 负载 平衡 的 概率 为 
1/(s+1) (第 15 行 )。 为 了 重新 进行 平衡 ， 线 程 一 律 随 机 地 选择 一 个 牺牲 者 线程 。 该 线程 以 线程 
ID 的 次 序 (为 了 避免 死 锁 ) 将 两 个 队列 都 锁定 (G17 ~ 20 行 )。 如 果 队 列 大 小 之 间 的 差异 超过 
了 国 值 ， 则 平衡 两 个 队列 的 大 小 〈 图 16-16 第 27 一 35 行 )。 
1 public class WorkSharingThread { 
2 Queue[] queue; 
3 Random random; 
4 private static final int THRESHOLD = ...; 
5 public WorkSharingThread(Queue[] myQueue) { 
6 queue = myQueue; 
7 
8 


random = new Random(); 


} 
9 public void run() { 














10 int me = ThreadID.get(); 
11 while (true) { 
12 Runnable task = queue[me] .deq(); 
13 if (task != null) task.run(); 
14 int size = queue[me] .size(); 
15 if (random.nextInt(size+1) == size) { 
16 int victim = random.nextInt (queue. length); 
17 int min = (victim <= me) ? victim : me; 
18 int max = (victim <= me) ? me : victim; 
19 synchronized (queue[min]) { 
20 synchronized (queue[max]) { 
21 balance(queue[min], queue[max]); 
22 } 
23 } 
24 } 
25 } 
26 } 
27 private void balance(Queue q0, Queue ql) { 
28 Queue qMin = (qO0.size() < ql.size()) ? q0 : ql; 
29 Queue gMax = (q0.size() < ql.size()) ? ql : q0; 
30 int diff = qMax.size() - qMin.size(); 
31 if (diff > THRESHOLD) 
32 while (qMax.size() > qMin.size()) 
33 qMin.enq(qMax.deq()); 
34 } 
35 } 
| 





图 16-16 WorkSharingThread 类 : 一 个 简化 的 工作 共享 执行 者 池 


16.6 本 章 注释 
用 于 多 线程 计算 分 析 中 的 基于 DAG 的 模式 是 由 Robert Blumofe 和 Charles Leiserson[20] 提 
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出 的 。 他 们 也 给 出 了 第 一 种 基于 双 端 队列 的 工作 窃取 实现 。 本 章 中 的 一 些 例 子 来 自 于 Charles 
Leiserson 和 Harald Prokop[102], 无 锁 的 有 界 双 端 队列 算法 是 由 Anish Arora、Robert Blumofe 
和 Greg Plaxton[15] 提 出 的 。 该 算法 中 使 用 的 无 界 时 间 戳 可 以 用 Mark Moir[117] 提 出 的 技术 变 
为 有 界 的 。 无 界 的 双 端 队列 算法 是 由 David Chase 和 Yossi Lev[28] 提 出 的 。 定理 16.3.1 及 其 证 明 
是 由 Anish Arora、Robert Blumofe 和 Greg Plaxton[15] 提 出 并 证 明 的 。 工作 共享 的 算法 是 由 
Larry Rudolph, Tali Slivkin-Allaluf 和 Eli Upfal[134] 提 出 的 。Anish Arora、Robert Blumofe 和 
Greg Plaxton[15] 所 提出 的 算法 后 来 被 Danny Hendler 和 Nir Shavit[56] 所 改进 ， 增 加 了 在 双 端 队 
列 中 窃取 一 半 元 素 的 能 力 。 


16.7 习题 
习题 185. 考虑 下 面 内 部 归并 排序 的 代码 : 


void mergeSort(int[] A, int lo, int hi) { 
if (hi > lo) { 
int mid = (hi - 10)/2; 
executor.submit(new mergeSort(A, lo, mid)); 
executor. submit (new mergeSort(A, mid+1, hi)) 
awaitTermination(); 
merge(A, lo, mid, hi); 
} 


假定 该 排序 方法 不 存在 内 在 的 并 行 ， 试 给 出 算法 的 工作 、 关 键 路 径 长 度 和 并 行 度 。 请 用 某 

个 函数 的 递 推 和 @(f(n)) 表 示 你 的 答案 。 
习题 186. 假设 在 一 个 专用 的 P 处 理 器 机 器 上 ， 一 个 并 行程 序 的 实际 运行 时 间 为 ， 
Tp =T,/P +T, 

你 的 研究 小 组 已 编制 了 两 个 国际 象棋 程序 : 一 个 比较 简单 而 另 一 个 是 经 过 优化 的 。 简 单 的 
那个 程序 的 7 = 20488), Ta = 1 秒 。 当 你 在 一 台 32 个 处 理 器 的 机 器 上 运行 它 的 时 候 (肯定 是 足够 
的 )， 运 行 时 间 是 65 秒 。 随 后 ， 你 的 学 生 们 开发 优化 的 版 本 ， 其 71= 10248, T = 8 秒 。 为 什么 
它 是 优化 的 ? 当 你 在 32 个 处 理 器 的 机 器 上 运行 它 的 上 时候， 运行 时 间 为 40 秒 ， 和 按照 我 们 的 公式 
预测 的 一 样 。 

在 一 台 512 个 处 理 器 的 机 器 上 ， 哪 个 程序 将 表现 得 更 好 ? 

习题 187. 编写 一 个 ArraySum 类 ， 它 提供 方法 : 
static public int sum(int[] a) 
该 方法 采用 分 治 法 并 行 地 对 数组 参数 的 元 素 进 行 求 和 。 
习题 188. Jones 教 授 对 他 的 (确定 的 ) 多 线程 程序 进行 测试 ， 它 是 由 贪心 调度 器 进行 调度 的 ， 测 试 
RIT, = 80 秒 ，T6s = 10 秒 。 在 10 个 处 理 器 上 运行 教授 的 计算 时 ， 最 快 可 能 是 多 少 ? 使 用 下 面 的 
不 等 式 及 其 隐 含 的 界限 来 推导 出 你 的 结论 。 注 意 ，P 是 处 理 器 的 数目 。 


T 
T,> 半 





(在 贪心 调度 中 最 后 一 个 不 等 式 成 立 。) 
习题 189. 试 给 出 本 章 中 Matrix 类 的 一 种 实现 。 保 证 你 的 sp1it( ) 方 法 需要 常数 时 间 。 
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d d 
习题 190. 设 P(x) = Ara Q(x) = da EdkSWK, Hehe, RITTER 


P(x) = Po(x) + (Py(x) + x”) 
Q(x) = Q) HO) + x°) 
其 中 ，Po(x)，Pi(x)，Qo(x) 和 Q1(X) 是 4d/2 次 多 项 式 。 


Polynomial 类 如 图 16-17 所 示 。 它 提供 了 put() 和 get() 方 法 以 访问 系数 ， 并 且 提 供 了 一 个 常 
数 时 间 的 sp1it( ) 方 法 ， 能 将 一 个 4d 次 多 项 式 P(x) 分 解 为 两 个 如 上 式 所 示 的 d/2 次 多 项 式 Po(x) 和 


Pi(x)， 其 中 ,分 解 后 的 多 项 式 可 从 原 多 项 式 得 出 ， 反 之 亦 然 。 


1 public class Polynomial { 

2 int[] coefficients; // possibly shared by several polynomials 
3 int first; // index of my constant coefficient 

4 int degree; // number of coefficients that are mine 

5 public Polynomial(int d) { 

6 coefficients = new int[d]; 

7 

8 





degree = d; 
first = 0; 
9 } 
10 private Polynomial (int[] myCoefficients, int myFirst, int myDegree) { 
11 coefficients = myCoefficients; 
12 first = myFirst; 
13 degree = myDegree; 
14 } 
15 public int get(int index) { 
16 return coefficients[first + index]; 
17 } 
18 public void set(int index, int value) { 
19 coefficients[first + index] = value; 
20 } 
21 public int getDegree() { 
22 return degree; 
23 } 
24 public Polynomial[] split() { 
25 Polynomial[] result = new Polynomial [2]; 
26 int newDegree = degree / 2; 
27 result[0] = new Polynomial(coefficients, first, newDegree); 
28 result[1] = new Polynomial(coefficients, first + newDegree, newDegree); 
29 return result; 
30. 3 
31} 








pez 








图 16-17 Polynomial% 


你 的 任务 是 为 这 个 Polynomial 类 设计 并 行 求 和 和 求 积 算法 。 
1. P(x) 和 Q(X) 的 和 可 以 分 解 为 下 式 : 
P(x) + Q(x) = (Po(x) + Qo(x)) + (Pœ) + Q1(X)) : x 
a) 使 用 这 种 分 解 以 图 16-13 的 方式 构造 一 个 基于 任务 的 并 发 多 项 式 求 和 算法 。 
b) 计算 该 算法 的 工作 和 关键 路 径 长 度 。 
2. P(x) 和 Q(x) 的 乘积 可 以 分 解 为 下 式 : 


P(X) + Q(X) = (Pol) + Q) + (Pox) + Q) + Py) - Qo(x)) + x“? + (P(x) + Q1(X)) 


a) 使 用 这 种 分 解 以 图 16-4 的 方式 构造 一 个 基于 任务 的 并 发 多 项 式 求 积 算法 。 
b) 计算 该 算法 的 工作 和 关键 路 径 长 度 。 
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习题 191. 试 给 出 一 个 有 效 且 高 并 发 度 的 多 线程 算法 ， 它 通过 一 个 长 度 为 x 的 向 量 x 来 进行 n x nF HE 
4 的 乘法 ， 并 满足 工作 为 8(n*)， 关 键 路 径 长 度 为 @(log n)。 分 析 你 的 实现 的 工作 和 关键 路 径 长 度 ， 
并 给 出 并 行 度 。 

习题 192. 图 16-18 给 出 了 平衡 两 个 工作 队列 负载 的 另 一 种 方式 : 首先 ， 锁 定 较 小 的 队列 ， 然 后 锁定 
较 大 的 ， 如 果 它 们 的 差 超过 了 阅 值 ， 则 重新 平衡 。 这 个 代码 哪里 出 错 了 ? 





Queue qMin = (q0.size() < ql.size()) ? q0 : ql; 
Queue qMax = (q0.size() < ql.size()) ? ql : q0; 
synchronized (qMin) { 
synchronized (qMax) { 
int diff = qMax.size() - gMin.size(); 
if (diff > THRESHOLD) 
while(qMax.size()>qMin.size) 
qMin.enq(qMax.deq()), 


1 
2 
3 
4 
5 
6 
7 
8 
9 
0 


a 





图 16-18 另 一 种 平衡 代码 


习题 193. 

1. 在 图 16-10 的 popBottom( ) 方 法 中 ，bottom 域 是 volati1e 的 ， 以 确保 在 popBottom( ) 中 ， 第 15 
行 的 减 小 是 立即 可 见 的 。 试 描述 一 个 场景 ， 解 释 如 果 bottom 没 有 声明 为 volati1e 的 ， 会 出 现 
什么 错误 。 

2. 为 什么 在 popBottom( ) 方 法 中 ， 我 们 应 该 尽早 地 尝试 将 bottom 域 重新 设 为 0? 哪 一 行 是 可 以 安 
全 地 进行 重新 设置 的 最 早 的 行 ? 我 们 的 BoundedDEQueue 会 溢出 吗 ? 描述 如 何 溢出 的 。 

习题 194. 在 popTop() 中 ， 如 果 第 8 行 的 compareAndSet() 成 功 ， 那 么 它 将 返回 恰好 在 成 功 的 
compareAndSet( ) 操 作 之 前 它 所 读 取 的 元 素 。 为 什么 要 在 执行 compareAndSet( ) 之 前 从 数组 中 读 
取 元 素 ? 

我 们 可 以 在 popTop( ) 的 第 6 行使 用 isEmpty() 吗 ? 

习题 195. UnboundedDEQueue 方 法 的 可 线性 化 点 是 哪里 ? 试 证 明 你 的 结论 。 

习题 196. 修改 可 线性 化 的 goundedDEQueue 实 现 中 的 popTop( ) 方 法 ， 使 得 仅 当 队列 中 没有 任务 时 返 
回 null。 注 意 ， 可 能 要 用 阻塞 来 实现 。 

习题 197. 你 认为 在 执行 者 池 代 码 中 ，BoundedDEQueue 的 isEmpty() 方 法 调用 实际 上 会 提高 它 的 性 
能 吗 ? 
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障 ”和 碍 


17.1 引言 


假设 你 正在 为 电脑 游戏 编写 图 形 显示 功能 。 在 你 的 程序 中 准备 了 一 系列 要 被 图 形 包 (可 
能 是 硬件 协 处 理 器 ) 显示 的 帧 。 有 时 称 这 种 程序 为 软 实 时 应 用 : 之 所 以 称 为 实时 的 ， 是 因为 
每 秒 必须 至 少 显示 35 帧 才 是 有 效 的 ， 而 软 的 则 是 因为 偶尔 发 生 的 故障 并 不 会 带 来 灾难 性 后 果 。 
在 一 台 单 线程 机 器 上 ， 可 以 编写 如 下 形式 的 循环 : 


while (true) { 
frame.prepare(); 
frame.display(); 
} 


然而 ， 如 果 有 n 个 可 用 的 并 行 线 程 ， 那 么 可 以 将 帧 划分 成 a 个 不 相交 的 部 分 ， 而 让 每 个 线 
程 以 和 其 他 线程 并 行 的 方式 各 自 准备 自己 的 部 分 。 


int me = ThreadID.get(); 

while (true) { 
frame[me] .prepare(); 
frame[me] .display(); 


采用 这 种 方式 所 存在 的 问题 就 是 ， 不 同 的 线程 需要 不 同 的 时 间 来 准备 和 显示 自己 的 部 分 。 
某 些 线程 可 能 开始 显示 第 i 帧 ， 而 其 他 线程 却 还 未 显示 完 第 (i 一 了) 帧 。 
为 了 避免 这 种 同步 间 题 ， 我 们 可 以 将 计算 组 织 成 一 系列 的 阶段 ， 在 其 他 线程 未 完成 第 (i 
1) 阶 段 之 前 ， 任 何 线程 不 能 开始 第 ;个 阶段 。 我 们 以 前 
已 经 见 过 这 种 分 阶段 式 的 计算 模式 。 在 第 12 章 ， 排 序 网 oa 
算法 要 求 每 个 比较 阶段 要 和 其 他 的 阶段 相隔 开 。 类 似 地 ， 3 
在 采样 排序 算法 中 ， 每 个 阶段 在 继续 推进 之 前 必须 确定 
前 驱 阶段 已 经 完成 。 
实施 这 种 同步 的 机 制 称 为 障 三 或 路 障 (如 图 17-1 所 > 
示 )。 障 碍 是 一 种 强制 异步 线程 就 好 像 是 同步 的 一 样 进 ag Ain See 
行 执行 的 方法 。 如 果 一 个 完成 了 阶段 ;的 线程 调用 障碍 5 b.await(): 
6 
7 





图 17-1 障碍 接口 





private Barrier b; 


while (true) { 


的 await() 方 法 ， 它 将 被 阻塞 直到 所 有 n 个 线程 都 已 完 frame[my] .display(); 
成 这 个 阶段 为 止 。 图 17-2 表 示 如 何 采 用 障碍 来 使 并 行 绘 
制程 序 正确 地 工作 。 在 准备 好 帧 ;之 后 ， 所 有 的 线程 在 图 17-2 使 用 障碍 同步 并 发 显示 
开始 显示 该 帧 之 前 在 障碍 处 同步 。 这 种 结构 确保 所 有 并 
发 显示 一 个 帧 的 线程 能 显示 出 同一 个 帧 。 

障碍 的 实现 引发 了 许多 与 第 7 章 中 自 旋 锁 同样 的 性 能 问题 ， 同 时 还 有 一 些 新 问题 。 显 然 ， 
障碍 应 该 很 快 ， 也 就 是 说 要 最 小 化 最 后 一 个 到 达 障 碍 和 最 后 一 个 离开 障碍 的 线程 之 间 的 时 间 





399 


288 第 二 部 分 实 R 


间隔 。 线 程 应 该 在 差不多 相同 的 时 刻 离 开 障 碍 也 是 很 重要 的 。 线 程 的 通知 时 间 则 是 指 某 个 线 
程 探测 到 所 有 线程 都 已 到 达 障 碍 和 这 个 特定 线程 离开 障碍 之 间 的 时 间 间 隔 。 对 于 大 多 数 软 实 
时 应 用 来 说 ， 具 有 统一 的 通知 时 间 是 很 重要 的 。 例 如 ， 如 果 帧 的 所 有 部 分 能 在 差不多 相同 的 
时 间 更 新 ， 那 么 图 片 的 质量 将 会 提高 。 


17.2 障碍 实现 


图 17-3 描 述 了 SimpleBarrier 类 ， 它 创建 了 一 个 AtomicInteger 计 数 器 ， 初 始 化 为 4， 说 
明了 障碍 的 大 小 。 每 个 线程 调用 getAndDecrement( ) 来 减 小 计数 器 值 。 如 果 调 用 返回 ! (第 10 
行 )， 该 线程 则 是 最 后 一 个 到 达 障 碍 的 ， 所 以 它 重 置 计数 器 以 便 下 次 使 用 (第 11 行 )。 否 则 ， 
线程 在 计数 器 上 自 旋 ， 等 待 这 个 值 降 为 零 (第 13 行 )。 该 障碍 类 看 起 来 好 像 可 以 工作 ， 但 它 无 
法 正确 执行 。 








public class SimpleBarrier implements Barrier { 
Atomicinteger count; 
int size; 
public SimpleBarrier(int n) { 
count = new AtomicInteger(n); 
size = n; 


public void await() { 


int position = count.getAndDecrement(); 
if (position == 1) { 

count.set(size); 
} else { 

while (count.get() t= 0){}; 





图 17-3 SimpleBarrier2k 


不 幸 的 是 ， 如 果 这 个 障碍 被 使 用 超过 了 一 次 ， 那 么 这 种 简单 的 设计 就 不 能 正常 工作 (如 
图 17-2 所 示 )。 假 设 有 两 个 线程 ， 线 程 4 对 计数 器 调用 getAndDecrement( )， 发 现 它 不 是 最 后 一 个 
到 达 障 碍 的 线程 ， 于 是 自 旋 等 待 计数 器 值 降 到 零 。 当 B 到 达 时 ， 发 现 自己 是 最 后 一 个 到 达 的 线程 ， 
于 是 重 设计 数 器 值 z 为 2。 它 完成 下 一 个 阶段 并 调用 await()。 与 此 同时 ，4 继 续 自 旋 ， 且 计数 器 值 
从 未 到 达 零 。 最 后 ，4 一 直 在 等 待 阶段 0 完成 ， 而 B 在 等 待 阶 段 1 完成， 两 个 线程 都 出 现 饥饿 现象 。 

解决 这 个 问题 的 最 简单 办 法 就 是 交替 使 用 两 个 障碍 ， 一 个 用 于 奇数 阶段 ， 一 个 用 于 偶数 
阶段 。 然 而 这 种 方法 会 浪费 空间 ， 并 且 要 从 应 用 中 获得 太 多 的 记录 。 


17.3 语义 换 向 障碍 


语义 换 向 障碍 是 解决 障碍 重用 问题 的 一 种 比较 实用 而 巧妙 的 方案 。 如 图 17-4 所 示 ， 阶 段 的 语 
义 是 一 个 布尔 值 ， 对 于 偶数 的 阶段 其 值 为 we， 奇数 的 阶段 其 值 为 false。 每 个 SenseBarrier 对 象 都 
有 一 个 布尔 型 的 sense 域 ， 用 来 表明 当前 正在 执行 阶段 的 语义 。 每 个 线程 都 将 它 当 前 的 语义 作为 
线程 本 地 对 象 保存 起 来 〈 见 编程 提示 17.3.1) 。 初 始 时 ， 障 碍 的 sense 是 所 有 线程 局 部 语义 的 补 码 。 
当 一 个 线程 调用 await( ) 时 ， 则 检查 它 是 否 是 递减 计数 器 值 的 最 后 一 个 线程 。 如 果 是 ， 则 将 障碍 
的 语义 反 向 并 继续 执行 。 否 则 ， 它 自 旋 等 待 障碍 的 sense 域 改变 为 与 它 自己 的 局 部 语义 相 匹配 。 
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1 public SenseBarrier(int n) { 

2 count = new AtomicInteger(n); 

3 size = n; 

sense = false; 


4 

5 threadSense = new ThreadLocal<Boolean>() { 

6 protected Boolean initialValue() { return !sense; }; 
7 . 


8 } 

9 public void await() { 

10 boolean mySense = threadSense.get(); 

11 int position = count.getAndDecrement (); 
12 if (position == 1) { 








13 count.set(size); 
14 sense = mySense; 
15 } else { 
16 while (sense != mySense) {} 
17 } 
18 threadSense.set({!mySense) ; 
19 
Ls | 








17-4 SenseBarrier 类 : 语义 换 向 障碍 


对 共享 计数 器 值 的 递减 有 可 能 导致 内 存 争 用 ， 因 为 所 有 的 线程 可 能 在 同一 时 刻 访 问 计数 
器 。 一 旦 计数 器 值 已 被 减 小 ， 每 个 线程 则 在 sense 域 上 自 旋 。 这 种 实现 非常 适合 于 缓存 一 致 的 
系统 结构 ， 因 为 线程 在 域 的 本 地 缓存 拷贝 上 自 旋 ， 且 该 域 只 在 线程 准备 离开 障碍 时 才 被 修改 。 
sense 域 是 一 种 在 缓存 一 致 的 对 称 多 处 理 器 上 保持 统一 的 通知 时 间 的 很 好 的 方法 。 


编程 提示 17.3.1 在 图 17-4 中 ， 语 义 换 向 障碍 的 构造 函数 代码 是 非常 直观 的 。 第 5 行 和 
第 6 行 有 点 复杂 ， 这 里 要 初始 化 线程 本 地 的 threadSense 域 。 这 个 稍 显 复杂 的 语法 定义 了 一 
个 线程 本 地 的 布尔 值 ， 其 初始 值 是 sense 域 初始 值 的 补 码 。 附 录 A.2.4 给 出 了 Java 中 线程 本 
地 对 象 的 完整 解释 。 











17.4 组 合 树 障碍 


减少 内 存 争 用 〈 以 增加 时 延 为 代价 ) 的 一 种 办 法 就 是 使 用 第 12 章 的 组 合 范例 。 将 一 个 大 
的 障碍 分 解 为 由 较 小 的 障碍 组 成 的 树 ， 让 线程 沿 着 树 向 上 组 合 请 求 ， 并 沿 着 树 向 下 分 布 通知 。 
如 图 17-5 所 示 ， 树 障 硒 有 大 小 n 和 基数 r， 其 中 n 为 线程 的 总 数 ，r 为 每 个 结 点 的 孩子 数 。 为 方便 
起 见 ， 我 们 假设 有 n = r"" 个 线程 ， 其 中 4d 是 树 的 深度 。 








1 public class TreeBarrier implements Barrier { 
2 int radix; 

3 Node[] leaf; 

4 ThreadLocal<Boolean> threadSense; 

5 ae 

6 public void await() { 

7 int me = ThreadID.get(); 

8 Node myLeaf = leaf[me / radix]; 

9 myLeaf.await(); 

10 } 











ae) 


图 17-5 TreeBarrier 类 : 每 个 线程 找到 叶 结 点 数组 的 索引 ， 并 调用 那个 叶子 的 await( ) 方 法 
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组 合 树 障碍 可 以 看 做 是 由 结 点 组 成 的 树 ， 像 语义 换 向 障碍 一 样 ， 每 个 结 点 具有 一 个 计数 
器 和 一 个 语义 。 图 17-6 表 示 一 个 结 点 的 实现 。 线 程 ;从 叶 结 点 Li/7] 开 始 。 该 结 点 的 await() 方 
法 和 语义 换 向 障碍 的 await( ) 方 法 相 类 似 ， 主 要 的 区 别 在 于 最 后 一 个 到 达 的 线程 (完成 障碍 的 
线程 ) 在 唤醒 其 他 线程 之 前 访问 父 障碍 。 当 7 个 线程 都 到 达 根 时 ， 障 碍 结束 且 反 向 语义 。 就 像 
以 前 一 样 ， 线 程 本 地 的 布尔 型 语义 值 允许 重用 障碍 而 不 必 再 初始 化 。 





1 private class Node { | 
2 AtomicInteger count; 
3 Node parent; 
4 volatile boolean sense; 
5 public Node() { 
6 sense = false; 
7 parent = null; 
8 count = new Atomicinteger(radix) ; 
9 } 
10 public Node(Node myParent) { 
11 this(); 
12 parent = myParent; 
13 
14 public void await() { 
15 boolean mySense = threadSense.get(); 
16 int position = count.getAndDecrement(); 
17 if (position == 1) { // I'm last 
18 if (parent != null) { // Am I root? 
19 parent.await(); 
20 } 
21 count.set (radix); 
22 sense = mySense; 
23 } else { 
24 while (sense != mySense) {}; 
25 } 
26 threadSense.set (!mySense) ; 








图 17-6 TreeBarrier 类 : 内 部 的 树 结 点 


树 结构 的 障碍 通过 将 内 存 的 访问 分 散在 多 个 障碍 上 来 减少 内 存 争 用 。 它 是 否 能 减少 延迟 
则 取决 于 它 减 小 单个 单元 快 还 是 访问 对 数 个 障碍 快 。 

一 旦 障碍 结束 ， 根 结 点 让 通知 沿 着 树 向 下 过 滤 。 这 种 方法 适 于 NUMA 系 统 结构 ， 但 有 可 
能 导致 不 统一 的 通知 时 间 。 因 为 当 线 程 向 上 移动 时 ， 将 访问 一 系列 不 可 预测 的 单元 ， 所 以 这 
种 方法 在 无 缓存 的 NUMA 系 统 结 构 中 有 可 能 效果 并 不 理想 。 


编程 提示 17.4.1 树 结 点 被 声明 为 树 障 碍 类 的 内 部 类 ， 所 以 结 点 在 类 的 外 部 是 不 能 访 
问 的 。 如 图 17-7 所 示 ， 树 通过 递归 的 buil1d() 方 法 来 初始 化 。 该 方法 以 父 结 点 和 深度 为 参数 。 
如 果 深 度 不 为 零 ， 则 创建 基数 个 儿子 ， 并 谦 归 地 创建 儿子 的 儿子 。 如 果 深 度 为 零 ， 则 将 每 
| 个 结 点 放 入 1eaf[] 数 组 中 。 当 一 个 线程 进入 障碍 时 ， 它 使 用 这 个 数组 来 选择 一 个 开始 的 叶 
结 点 。 附 录 A.2.1 给 出 了 Java 中 内 部 类 的 完整 讨论 。 
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1 public class TreeBarrier implements Barrier { 
2 int radix; 

3 Node[] leaf; 

4 int leaves; 

5 ThreadLocal<Boolean> threadSense; 

6 public TreeBarrier(int n, int r) { 

7 radix = r; 

8 leaves = 0; 

9 leaf = new Node[n / r]; 

10 int depth = 0; 

11 threadSense = new ThreadLocal<Boolean>() { 
12 protected Boolean initialValue() { return true; }; 
13 E 

14 // compute tree depth 

15 while (n > 1) { 

16 depth++; 

17 nen/r; 

18 } 

19 Node root = new Node(); 

20 build(root, depth - 1); 

21 } 

22 // recursive tree constructor 

23 void build(Node parent, int depth) { 
24 if (depth == 0) { 

25 leaf[leaves++] = parent; 

26 } else { 

27 for (int i = 0; i < radix; i++) { 
28 Node child = new Node(parent); 
29 build(child, depth - 1); 

30 

31 } 

32 } 

33 nee 

34} 








图 17-7 TreeBarrier 类 : 初始 化 组 合 树 障 碍 。bui1d( ) 方 法 为 每 个 结 点 创建 r 个 儿子 ， 然 后 递 
归 地 创建 儿子 的 儿子 。 在 最 底层 ， 将 叶子 放 入 数组 中 


17.5 静态 树 障碍 


到 现在 为 止 所 介绍 的 障碍 或 者 存在 着 内 存 争 用 (简单 障碍 和 语义 换 向 障碍 ) ， 或 者 具有 大 
量 通信 (组 合 树 障碍 )。 在 后 两 种 障碍 中 ， 线 程 遍历 了 一 系列 不 可 预测 的 结 点 ， 这 使 得 在 无 组 
存 的 NUMA 系 统 结构 上 设计 障碍 非常 困难 。 令 人 惊奇 的 是 ， 存 在 另 一 种 简单 的 障碍 ， 它 既 允 
许 静 态 设计 又 具有 低 争 用 特性 。 

图 17-8 中 的 静态 树 障碍 按 如 下 方式 工作 :每 个 线程 被 指定 到 树 中 的 一 个 结 点 (图 17-9)。 
每 个 结 点 等 待 ， 直 到 树 中 比 它 低 的 所 有 结 点 都 完成 为 止 ， 然 后 通知 它 的 父 结 点 。 接 着 自 
旋 等 待 全 局 的 语义 位 被 改变 。 一 旦 根 结 点 获知 它 的 子 结 点 都 已 完成 ， 就 触发 全 局 语义 位 ， 
通知 等 待 的 线程 所 有 的 线程 都 已 经 完成 。 在 缓存 一 致 的 多 处 理 器 上 ， 完 成 这 种 障碍 需要 
在 树 中 向 上 移动 log(n) 步 , 而 通知 只 需 简 单 地 改变 全 局 语义 , 这 由 缓存 一 致 的 机 制 来 传播 。 
在 不 具有 缓存 一 致 性 的 机 器 上 ， 线 程 将 采用 前 面 所 学 的 组 合 障 碍 的 方式 ， 沿 着 树 向 下 传 
播 通知 。 
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public class StaticTreeBarrier implements Barrier { 
int radix; 

boolean sense; 

Node[] node; 

ThreadLocal<Boolean> threadSense; 

int nodes; 

public StaticTreeBarrier(int size, int myRadix) { 


radix = myRadix; 
nodes = 0; 
node = new Node[size]; 


int depth = 0; 
while (size > 1) { 
deptht++; 
size = size / radix; 
} 
build(null, depth); 
sense = false; 
threadSense = new ThreadLocal<Boolean>() { 
protected Boolean initialValue() { return !sense; 


l; 


// recursive tree constructor 
void build(Node parent, int depth) { 
if (depth == 0) { 
node[nodes++] = 
} else { 
Node myNode = new Node(parent, radix); 
node[nodest++] = myNode; 
for (int i = 0; i < radix; i++) { 
build(myNode, depth - 1); 
} 
} 


new Node(parent, 0); 


} 
public void await() { 
node[ThreadID.get({)].await(); 








图 17-8 StaticTreeBarrier 类 : 每 个 线程 索引 到 一 个 静态 指定 的 树 结 点 ， 并 调用 该 结 点 的 await( ) 方 法 


public Node(Node myParent, int count) { 
children = count; 
childCount = new AtomicInteger(count) ; 
parent = myParent; 
} 
public void await() { 
boolean mySense = threadSense.get(); 
while (childCount.get() > 0) {}; 
childCount.set (children) ; 
if (parent != null) { 
parent.childDone(); 
while (sense != mySense) {}; 
} else { 
sense = 
} 
threadSense.set(!mySense) ; 
} 
public void childDone() { 
childCount.getAndDecrement (); 
} 


WON ADO HPWNHH 


Isense; 





图 17-9 StaticTreeBarrier2é; 内 部 结 点 类 
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17.6 终止 检测 障碍 


迄今 为 止 所 讨论 的 所 有 障碍 都 是 按 阶段 组 织 计算 的 ， 线 程 完成 一 个 阶段 的 工作 ， 到 达 障 
碍 ， 然 后 开始 一 个 新 的 阶段 。 

然而 ， 存 在 着 另外 一 类 有 趣 的 程序 ， 其 中 每 个 线程 完成 它 自己 的 计算 部 分 ， 仅 当 其 他 线 
程 产 生 新 的 任务 时 才 继 续 工 作 。 第 16 章 中 简化 的 工作 窃取 执行 者 池 就 是 一 个 这 样 的 例子 
(图 17-10)。 在 这 里 ， 一 旦 线程 用 完 它 的 本 地 队列 中 的 任务 ， 就 尝试 从 其 他 线程 的 队列 中 窃取 
工作 。execute( ) 方 法 本 身 可 以 将 新 任务 放 到 调用 线程 的 本 地 队列 中 。 一 旦 所 有 线程 用 完了 它 
们 队列 中 的 任务 ， 这些 线程 就 一 直 运 行 ， 不 断 地 尝试 窃取 元 素 。 但 是 ， 我 们 更 愿意 设计 一 种 
终止 检测 障碍 ， 从 而 使 得 一 旦 这 些 线程 完成 了 所 有 的 任务 ， 它 们 都 能 终止 。 








1 public class WorkStealingThread { 

2 DEQueue[] queue; 

3 int size; 

4 Random random; 

5 public WorkStealingThread(int n) { 

6 queue = new DEQueuein]; 

7 size = n; 

8 random = new Random{}; 

9 for (int i = 0; i < n; i++) { 

10 queue[i] = new DEQueue(); 

il 

12 } 

13 public void run() { 

14 int me = ThreadID.get(); 

15 Runnable task = queue[me] .popBottom(); 
16 while (true) { 

17 while (task != null) { 

18 task.run(); 

19 task = queue[me] .popBottom(); 
20 } 
21 while (task == null) { 

22 int victim = random.nextInt() % size; 
23 if (!queue[victim] .isEmpty()) { 
24 task = queue[victim] .popTop(); 
25 } 
26 } 
27 } 
28 } 

29 } 

= | 








图 17-10 再 探 工作 窃取 执行 者 池 


每 个 线程 或 者 是 活动 的 (有 一 个 任务 要 执行 ) 或 者 是 非 活动 的 (没有 任务 可 执行 )。 注 意 ， 
只 要 有 某 个 线程 是 活动 的 ， 那 么 任何 非 活 动 的 线程 都 可 能 变 成 活动 的 ， 因 为 非 活动 线程 可 以 
从 活动 线程 那里 窃取 任务 。 一 旦 所 有 的 线程 都 变 成 非 活 动 的 ， 那 么 任何 线程 就 不 能 再 回 到 活 
动 状 态 。 所 以 ， 检 测 一 个 计算 作为 一 个 整体 是 否 已 终止 就 是 要 及 时 判断 在 某 个 瞬间 是 否 不 再 
存在 任何 活动 的 线程 。 

至 今 所 学 的 任何 一 个 障碍 算法 都 不 能 解决 这 个 问题 。 因 为 线程 可 能 不 断 地 在 活动 和 非 活 
动 状态 之 间 转 换 ， 所 以 不 能 通过 让 每 个 线程 声明 它 已 变 成 非 活 动 的 并 简单 地 计算 这 样 的 线程 
的 数量 来 检测 终止 。 例 如 ， 考 虑 如 图 17-10 所 示 的 线程 4、B 和 C， 假 设 每 个 线程 都 有 一 个 布尔 
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值 来 说 明 它 处 于 活动 状态 还 是 非 活 动 状 态 。 当 A 变 成 非 活 动 状 态 时 ， 它 可 能 接着 观察 到 B 是 非 
活动 的 ， 又 观察 到 C 也 是 非 活动 的 。 然 而 ，4 却 不 能 得 出 整个 计算 都 已 经 完成 的 结论 ， 因 为 在 
A 检查 完 B3 但 还 未 检查 完 C 之 前 ，8B 有 可 能 从 C 窃 取 了 任务 。 





终止 检测 障碍 (图 17-11) 提供 了 setActive(v) 和 isTerminated( ) 方 法 。 每 个 线程 在 变 为 
活动 时 ， 调 用 setActive(true) 通 知 障碍 ， 当 变 为 非 活动 时 ， 调 用 setActive(false) 通 知 障碍 。 
当 且 仅 当 所 有 线程 在 先前 的 某 个 时 刻 变 为 非 活动 状态 时 ，isTerminated( ) 方 法 返回 true。 
图 17-12 描 述 了 终止 检测 障碍 的 一 种 简单 实现 。 


public interface TDBarrier { 


void setActive(boolean state); 
boolean isTerminated(); 


} 





图 17-11 终止 检测 障碍 接口 










1 public class SimpleTDBarrier implements TDBarrier { 
2 AtomicInteger count; 
3 public SimpleTDBarrier(int n) { 
4 count = new AtomicInteger(n); 
5 
6 public void setActive(boolean active) { 
7 if (active) { 
8 count.getAndIncrement (); 
9 } else { 
10 count.getAndDecrement(); 
11 
12 
13 public boolean isTerminated() { 
return count.get() == 0; 








图 17-12 简单 终止 检测 障碍 


该 障碍 包含 一 个 AtomicInteger ， 初 始 化 为 0。 每 个 变 为 活动 状态 的 线程 递减 计数 器 值 
(第 8 行 )， 每 个 变 为 非 活动 状态 的 线程 递增 计数 器 值 (第 10 行 )。 当 计数 器 值 变 为 零 时 ， 则 认 
为 计算 终止 了 (第 14 行 )。 

终止 检测 障碍 只 有 在 正确 地 使 用 时 才能 正常 工作 。 图 17-13 描 述 了 当 计 算 已 终止 时 ， 如 何 
修改 工作 窃取 线程 的 run( ) 方 法 来 返回 。 初 始 时 ， 每 个 线程 设 为 活动 的 (第 3 行 )。 一 旦 一 个 线 
程 用 完 它 的 本 地 队列 中 的 任务 ， 就 改 为 非 活动 的 〈 第 10 行 )。 然 而 ， 在 它 试 图 窃取 一 个 新 任务 
之 前 ， 必 须 改 为 活动 的 〈 第 14 行 )。 如 果 窃 取 失 败 ， 则 再 改 为 非 话 动 的 〈 第 17 行 )。 

注意 ， 线 程 在 窃取 任务 前 要 设置 为 活动 的 。 否 则 的 话 ， 如 果 一 个 线程 打算 要 窃取 一 个 任 
务 而 它 是 非 活 动 的 ， 那 么 被 窃取 了 任务 的 线程 也 可 能 声明 自己 是 非 活动 的 ， 从 而 导致 所 有 线 
程 都 声明 自己 是 非 活动 的 ， 而 计算 又 在 连续 执行 。 

下 面 是 设计 中 很 巧妙 的 一 个 地 方 , 线程 在 试图 窃取 任务 之 前 要 测试 队列 是 否 为 空 ( 第 13 行 )。 
这 样 ， 如 果 窃 取 不 成 功 ， 则 可 以 避免 声明 自己 是 活动 的 。 若 没有 这 个 措施 ， 线 程 有 可 能 
法 检测 到 终止 ， 因 为 在 窃取 者 尝试 注定 不 会 成 功 的 偷窃 之 前 ， 每 个 线程 会 不 断 地 切换 为 活 
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1 public void run() { 

2 int me = ThreadI0.get(); 

3 tdBarrier.setActive(true) ; 

4 Runnable task = queue[me] .popBottom(); 
5 while (true) { 

6 while (task != null) { 

7 task.run(); 

8 task = queue[me] .popBottom(); 

9 

10 tdBarrier.setActive(false); 

ll while (task == null) { 

12 int victim = random.nextInt() % queue.length; 
13 if (!queue[victim] .isEmpty()) { 
14 tdBarrier.setActive(true); 

15 task = queue[victim] .popTop(); 
16 if (task == null) { 

17 tdBarrier.setActive(false) ; 
18 } 

19 } 
20 if (tdBarrier.isTerminated()) { 
21 return; 
22 } 
23 } 

24 } 

25 } 

26 } 








图 17-13 工作 窃取 执行 者 地 : 具有 终止 的 run( ) 方 法 


终止 检测 障碍 的 正确 使 用 必须 满足 安全 性 和 活性 。 安 全 性 是 指 如 果 isTerminated( ) 返 回 
true， 那 么 计算 的 确 已 经 终止 。 安 全 性 要 求 活动 的 线程 不 能 声明 自己 是 非 活动 的 ， 因 为 它 可 以 
触发 一 个 不 正确 的 终止 检测 。 例 如 ， 对 于 图 17-13 中 的 工作 窃取 线程 ， 如 果 该 线程 只 在 成 功 地 
窃取 一 个 任务 之 后 才 声 明 自 己 是 活动 的 ， 那 么 该 线程 将 是 不 正确 的 。 相 反 ， 一 个 不 活动 的 线 
程 声称 自己 是 活动 的 则 是 安全 的 ， 如 果 一 个 线程 在 第 15 行 窃取 工作 时 不 成 功 ， 则 会 出 现 这 样 
的 情形 。 

活性 特性 是 指 如 果 计 算 终 止 ， 那 么 isTerminated( ) 最 终 会 返回 frwe。( 不 要 求 终止 应 被 瞬 
间 检 测 。) 如 果 一 个 非 活动 状态 的 线程 声明 自己 是 活动 的 ， 则 安全 性 并 没 受 到 损害 ， 而 如 果 一 
个 窃取 失败 的 线程 没有 再 次 声明 自己 是 非 活动 的 〈 第 15 行 )， 则 会 违背 活性 特性 ， 因 为 当 这 种 
情况 发 生 时 终止 将 无 法 被 检测 到 。 


17.7 本 章 注释 


John Mellor-Crummey 和 Michael Scott[113] 给 出 了 障碍 算法 的 综述 ， 当 然 ， 应 从 历史 的 角 
度 去 看 待 他 们 的 结论 。 组 合 树 障碍 是 在 John Mellor-Crummey 和 Michael Scott[113] 的 代码 的 基 
础 上 设计 的 ， 而 它们 又 是 建立 在 Pen-Chung Yew, Nian-Feng Tzeng 和 Duncan Lawrie[151] 的 组 
合 树 算法 之 上 的 。 分 散 式 障 碍 归功 于 Debra Hensgen, Raphael Finkel 和 Udi Manber [59]。 习 题 
中 用 到 的 竞赛 树 障碍 归功 于 John Mellor-Crummey 和 Michael Scott [113], 简单 障碍 和 静态 树 陪 
碍 最 为 广泛 流传 。 我 们 是 从 Beng-Hong Lim 那 里 了 解 到 静态 树 障碍 的 。 终 止 检测 障碍 及 其 在 执 
行者 池 中 的 应 用 是 以 Peter Kessler 对 Dave Detlefs、Christine Flood、Nir Shavit 和 Xiolan 
Zhang[41] 算 法 进行 改进 后 的 算法 为 基础 的 。 
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17.8 习题 
习题 198. 图 17-14 表 示 如 何在 异步 系统 结构 上 使 用 障碍 进行 并 行 前 缀 计算 。 









1 class Prefix extends java.lang.Thread { 
2 private int[] a; 

3 private int i; 

4 public Prefix(int{] myA, int myI) { 
5 a = myA; 

6 i = myl; 

7 } 

8 public void run() { 

9 int d = 1, sum = 0; 
10 while (d < m) { 
11 if (i >= d) 
12 sum = a[i-d]; 
13 if (i >= d) 
14 a[i] += sum; 
15 d=d * 2; 
16 } 
17 } 
18 } 








图 17-14 并 行 前 级 计算 
给 定 一 个 数字 序列 ao…,a,_!， 并 行 前 级 计算 则 并 行 地 计算 部 分 和 : 


$ 
b, = $a 
j= 


在 一 个 异步 系统 中 ， 所 有 的 线程 同时 执行 操作 ， 有 一 些 著名 的 简单 算法 ， 能 让 m 个 线程 在 
logm 步 内 计算 部 分 和 。 该 计算 从 循环 0 开始 ， 以 一 序列 循环 向 前 推进 。 在 循环 r 中 ， 如 果 i 宇 27， 
线程 出 将 e[ 盖 2 中 的 值 读 到 本 地 变量 中 。 然 后 ， 将 该 值 加 到 a[ 圈 中。 循环 继续 直到 2">>m 为 止 。 
不 难看 出 ， 经 过 log(m) 次 循环 后 ， 数 组 a 中 包含 了 所 有 的 部 分 和 。 

1. 如 果 在 n>m 个 线程 上 执行 并 行 前 级 ， 会 出 现 什 么 错误 ? 
2. 修改 这 个 程序 ， 增 加 一 个 或 多 个 障碍 ， 使 得 它 在 并 发 地 设置 n 个 线程 时 可 以 正常 工作 。 所 需 的 
最 小 障碍 个 数 为 多 少 ? 
习题 199. 修改 语义 转向 障碍 的 实现 ， 使 得 等 待 的 线程 调用 wait( ) 而 不 是 自 旋 。 
“给 出 一 种 挂 起 线程 要 比 让 线程 自 旋 好 的 情形 。 
。 给 出 一 种 其 他 选择 要 更 好 的 情形 。 
习题 200. 修改 树 障 碍 的 实现 ， 使 得 它 可 以 接受 一 个 Runnab1e 对 象 ， 该 对 象 的 run( ) 方 法 在 最 后 一 
个 线程 到 达 障 碍 后 且 所 有 的 线程 还 未 离开 障碍 之 前 被 调用 一 次 。 
习题 201. 修改 组 合 树 障 碍 ， 使 得 结 点 可 以 使 用 任何 障碍 实现 ， 而 不 是 只 能 使 用 语义 转向 障碍 。 
习题 202. 竞赛 树 障 硒 (图 17-15 中 的 TourBarrier 类 ) 是 树 结构 障碍 的 一 种 变化 形式 。 假 设 有 n 个 
线程 ， 其 中 n 是 2 的 整数 次 军 。 该 树 是 一 个 由 2n 一 1 个 结 点 组 成 的 二 又 树 。 每 个 叶子 由 一 个 静态 决 
定 的 单个 线程 所 拥有 。 每 个 结 点 的 两 个 儿子 被 链接 成 伙伴 ， 其 中 一 个 被 静态 地 设计 为 主动 的 ， 
男 一 个 则 为 被 动 的 。 图 17-16 描 述 了 这 种 树 结构 。 
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1 private class Node { 

2 volatile boolean flag; // signal when done 

3 boolean active; // active or passive? 

4 Node parent; // parent node 

5 Node partner; // partner node 

6 // create passive node 

7 Node() { 

8 flag = false; 

9 active = false; 

10 partner = null; 

11 parent = null; 

12 } 

13 // create active node 

14 Node(Node myParent) { 

15 this(); 

16 parent = myParent; 

17 active = true; 

18 } 

19 void await(boolean sense) { 

20 if (active) { // I'm active 

21 while (flag != sense) {}; // wait for partner 
22 if (parent != null) {parent.await(sense}; // wait for parent 
23 partner.flag = sense; // tell partner 
24 } else { // I'm passive 
25 partner.flag = sense; // tell partner 

26 while (flag != sense) {}; // wait for partner 

27 } 

28 } 

29 } 








17-15 TourBarrier2é 


root 






winner 


winner loser winner loser 


图 17-16 TourBarrier 类 : 信息 流 。 结 点 被 静态 地 结对 为 主动 /被 动 。 线 程 从 叶 结 点 开始 。 每 
个 主动 结 点 中 的 线程 等 待 其 被 动 的 伙伴 出 现 ， 然 后 继续 向 树 的 上 方 推进 。 每 个 被 动 
线程 等 待 其 主动 伙伴 完成 的 通知 。 一 旦 主动 线程 到 达 根 ， 那 么 所 有 的 线程 已 到 达 ， 
通知 则 以 相反 的 次 序 沿 着 树 向 下 流 
每 个 线程 在 一 个 线程 本 地 变量 中 保存 当前 的 语义 。 当 一 线程 到 达 一 个 被 动 结 点 时 ， 它 将 其 
主动 伙伴 的 sense 域 设置 为 当前 语义 ， 然 后 在 它 自己 的 sense 域 上 自 旋 直到 它 的 伙伴 将 这 个 域 的 
值 变 为 当前 语义 为 止 。 当 一 线程 到 达 一 个 主动 结 点 时 ， 就 在 它 自己 的 sense 域 上 自 旋 ， 直 到 它 的 
被 动 伙 伴 将 其 设置 为 当前 语义 为 止 。 当 这 个 域 改变 时 ， 那 个 特定 的 障碍 被 完成 ， 主 动 的 线程 沿 
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着 父 结 点 的 引用 到 达 它 的 父 结 点 。 注 意 在 一 个 层 上 的 主动 线程 有 可 能 在 下 一 个 层 变 成 被 动 的 。 
当 根 结 点 障碍 完成 时 ， 则 沿 着 树 向 下 过 滤 通 知 。 每 个 线程 向 下 返回 ,将 它 的 伙伴 的 sense 域 设置 
为 当前 语义 。 
这 种 障碍 对 图 17-5 的 组 合 树 障 碍 进行 了 一 点 改进 。 下 面 解释 其 原因 。 
竞赛 障碍 代码 使 用 parent 和 partner 引 用 来 引导 整个 树 。 我 们 可 以 通过 去 掉 这 些 域 并 将 所 有 
的 结 点 保存 在 一 个 单独 的 数组 中 来 节省 空间 ， 树 的 根 索引 为 0， 根 的 儿子 索引 为 1 和 2， 孙 子 的 索 
引 为 3 一 6， 如 此 类 推 。 请 采用 索引 算法 而 不 用 引用 来 引导 树 ， 重 新 实现 竞赛 障碍 。 
习题 203. 组 合 树 障 碍 对 整个 障碍 使 用 了 一 个 单独 的 线程 本 地 的 语义 域 。 假 设 我 们 采用 图 17-17 的 
设计 给 每 个 结 点 关联 一 个 线程 本 地 的 语义 域 。 那 么 ， 请 完成 下 面 问题 : 
。 或 者 解释 为 什么 这 种 实现 除了 需要 更 多 内 存 以 外 ， 等 价 于 原来 的 实现 。 
411 。 或 者 给 出 一 个 反例 说 明 这 种 实现 是 不 正确 的 。 


private class Node { 

AtomicInteger count; 

Node parent; 

volatile boolean sense; 

int d; 

// construct root node 

public Node() { 
sense = false; 
parent = null; 
count = new AtomicInteger(radix); 
ThreadLocal<Boolean> threadSense; 
threadSense = new ThreadLocal<Boolean>() { 

protected Boolean initialValue() { return true; }; 


public Node(Node myParent) { 
this(); 


parent = myParent; 
} 
public void await() { 
boolean mySense = threadSense.get(); 
int position = count.getAndDecrement (); 
if (position == 1) { // I'm last 
if (parent != null) { // root? 
parent.await(); 
} 
count.set(radix); // reset counter 
sense = mySense; 
} else { 
while (sense != mySense) {}; 
} 
threadSense. set (!mySense) ; 
} 
} 





图 17-17 线程 本 地 的 树 障 碍 


习题 204. 树 障 碍 “ 自 底 向 上 ”工作 ， 也 就 是 说 障碍 的 完成 是 从 树叶 到 树 根 ， 而 唤醒 信息 则 是 从 树 
根 返 回 到 树叶 。 图 17-18 和 图 17-19 描 述 了 另 一 种 设计 ， 称 为 翻转 树 障 碍 ， 除 了 障碍 的 完成 是 从 树 
根 开始 移 到 树叶 之 外 ， 其 工作 方式 与 树 障碍 很 相似 。 

。 或 者 简要 说 明 为 什么 这 种 实现 是 正确 的 ， 可 能 要 对 标准 的 树 障 碍 进行 归 约 。 
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。 或 者 给 出 反例 说 明 为 什么 不 对 。 


1 public class RevBarrier implements Barrier { 
2 int radix; 

3 ThreadLocal<Boolean> threadSense; 

4 int leaves; 

5 Node[] leaf; 

6 public RevBarrier(int mySize, int myRadix) { 
7 radix = myRadix; 

8 leaves = 0; 

9 leaf = new Node[mySize / myRadix]; 

10 int depth = 0; 

11 threadSense = new ThreadLocal<Boolean>() { 
12 protected Boolean initialValue() { return true; }; 
13 F: 

14 // compute tree depth 

15 while (mySize > 1) { 

16 depth++; 

17 mySize = mySize / myRadix; 

18 } 

19 Node root = new Node(); 

20 root.d = depth; 

21 build(root, depth - 1); 

22} 

23 // recursive tree constructor 

24 void build(Node parent, int depth) { 

25 // are we at a leaf node? 

26 if (depth == 0) { 

27 leaf[leaves++] = parent; 

28 } else { 

29 for (int i = 0; i < radix; i++) { 

30 Node child = new Node(parent); 

31 chiid.d = depth; 

32 build(child, depth - 1); 

33 } 








| 38 P 





图 17-18 翻转 树 障 碍 部 分 1 


习题 205. 使 用 一 个 n 线 的 计数 网 和 单个 的 布尔 变量 ,实现 一 种 可 重用 的 n 线 程 障碍 。 给 出 这 个 障碍 
能 正常 工作 的 证 明 。 

习题 206. 你 能 为 执行 者 池 设 计 一 个 “分 布 式 ”的 终止 检测 算法 吗 ? 其中， 线程 不 是 反复 地 更 新 或 
测试 一 个 集中 的 单元 来 检测 终止 ， 而 是 只 使 用 非 争 用 的 本 地 变量 。 变 量 可 能 是 无 界 的 ， 但 状态 
的 改变 应 是 常数 时 间 (所 以 你 不 能 并 行 化 这 个 共享 计数 器 )。 
提示 : 采用 第 4 章 的 原子 快照 算法 。 

习题 207. 分 发 障碍 是 一 种 对 称 障碍 实现 ， 其 中 线程 只 使 用 加 载 /存储 操作 在 静态 指派 的 本 地 缓存 单 
元 上 自 旋 。 如 图 17-20 所 示 ， 该 算法 以 一 系列 循环 来 运行 。 在 循环 +r， 线程 通知 线程 it2” (mod n) 
(其 中 n 是 线程 个 数 ) 并 等 待 线程 于 2 (mod n) 的 通知 。 

采用 这 种 协议 运行 来 实现 一 个 障碍 需要 多 少 次 循环 ? 如 果 m 不 是 2 的 整数 次 需 将 会 怎样 ? 证 

明 你 的 答案 。 
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图 17-20 分 发 障碍 中 的 通信 。 在 每 个 循环 /中 ， 线 程 ; 与 线程 i+2” (mod n) 进行 通信 


实 


践 














public void await() { 
int me = ThreadInfo.getIndex(); 
Node myLeaf = leaf[me / radix]; 
myLeaf.await(me); 
} 
private class Node { 
AtomicInteger count; 
Node parent; 
volatile boolean sense; 
int d; 
// construct root node 
public Node() { 
sense = false; 
parent = null; 
count = new AtomicInteger(radix); 
} 
public Node(Node myParent) { 
this(); 
parent = myParent; 
} 
public void await(int me) { 
boolean mySense = threadSense.get(); 
// visit parent first 
if ((me % radix) == 0) { 
if (parent != null) { // root? 
parent.await(me / radix); 
} 
} 
int position = count.getAndDecrement(); 
if (position == 1) { // I'm last 
count.set({radix); // reset counter 
sense = mySense; 
} else { 
while (sense != mySense) {}; 
} 


threadSense.set(!mySense); 








图 17-19 翻转 树 障 碍 部 分 2: 是 否 正确 


i+ 1 mod(6) i+2 mod(6) i+4 mod(6) 
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习题 208. 采用 Java 语 言 给 出 一 种 可 重用 分 发 障碍 的 实现 。 

提示 : 可 能 要 保存 当前 阶段 的 奇偶 性 和 语义 域 。 

习题 209. 创建 一 张 表 ， 能 够 汇总 静态 树 、 组 合 树 和 分 发 障碍 的 操作 总 数 。 

习题 210. 终止 检测 障碍 中 ， 在 窃取 任务 之 前 状态 被 设置 为 活动 的 ， 否 则 ,偷窃 者 线程 不 能 声明 为 
非 活 动 的 ， 然 后 ， 它 窃取 一 个 任务 ， 在 将 它 的 状态 设置 为 活动 状态 之 前 ， 被 窃取 任务 的 线程 可 
能 变 为 非 活 动 的 。 这 将 导致 我 们 不 希望 发 生 的 情形 ， 所 有 的 线程 都 声明 为 非 活 动 的 ， 然 而 计算 
仍 在 继续 进行 。 你 能 设计 一 种 可 终止 的 执行 者 地 ， 其 中 状态 只 有 在 成 功 地 窃取 了 一 个 任务 之 后 
才 被 设置 为 活动 的 吗 ? 
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事务 内 在 


18.1 引言 


讨论 完 数据 结构 和 算法 的 设计 ， 本 章 评论 解决 这 些 问 题 所 使 用 的 工具 。 它 们 都 是 当今 系统 
结构 所 提供 的 同步 原 语 (包括 各 种 类 型 的 上 锁 、 自 旋 和 阻塞 )、 诸 如 compareAndSet( ) 操 作 以 
及 一 些 相关 的 原子 操作 。 这 些 操作 大 多 都 能 提供 很 好 的 服务 ， 多 处 理 器 程序 设计 员 已 经 能 构造 
出 多 种 实用 精妙 的 数据 结构 。 然 而 ， 这 些 工具 也 是 存在 缺陷 的 。 本 章 将 回顾 并 分 析 标 准 同步 原 
语 的 优 缺 点 ， 同 时 阐述 一 些 新 出 现 的 解决 方案 ， 它 们 能 扩展 甚至 取代 现今 的 许多 标准 原 语 。 


18.1.1 关于 锁 的 问题 


作为 同步 规范 的 锁 对 于 缺乏 经 验 的 程序 员 来 说 存在 着 很 多 缺陷 。 当 低 优 先 级 的 线程 被 抢 
占 ， 而 它 又 持 有 高 优先 级 线程 所 需要 的 锁 时 ， 会 出 现 优 先 级 倒置 现象 。 若 由 于 页 故障 或 其 他 
中 断 而 耗 尽 了 一 个 持 有 锁 的 线程 的 调度 量 ， 使 得 该 线程 不 再 被 调度 时 ， 将 会 发 生 转 让 现象 。 
当 持 有 锁 的 线程 处 于 非 活 动 状态 时 ， 其 他 请 求 这 个 锁 的 线程 将 要 排队 等 待 而 不 能 继续 前 进 。 
其 至 当 锁 被 释放 后 ， 要 将 队列 清空 也 需要 花费 一 些 时 间 ， 这 与 在 残骸 已 被 清除 的 情形 下 ， 事 
故 仍 可 能 会 造成 流量 降低 是 一 样 的。 如 果 线 程 试图 以 不 同 的 次 序 锁定 同一 个 对 象 ， 则 会 出 现 
死 锁 。 如 果 线 程 必须 锁定 很 多 对 象 ， 尤 其 是 在 对 象 集 预 先 不 可 知 的 情况 下 ， 避 免 死 锁 是 非常 
困难 的 。 过 去 ， 高 扩展 性 的 应 用 不 仅 很 少 而 且 很 珍贵 ， 对 于 这 样 的 一 些 问 题 我 们 可 以 通过 组 
织 一 组 专业 的 程序 员 来 避免 。 而 如 今 ， 高 扩展 性 的 应 用 变 得 非常 普遍 ， 采 用 传统 的 方法 则 需 
要 太 高 的 成 本 。 

产生 这 种 问题 的 关键 就 是 没有 人 真正 知道 如 何 组 织 和 维护 依赖 于 锁 的 大 型 系统 。 数 据 和 
锁 之 间 的 关联 通常 是 按照 约定 来 建立 的 。 它 最 终 只 存在 于 程序 员 的 脑海 中 ， 或 者 以 注释 的 形 
式 作 为 文档 被 保存 。 图 18-1 是 一 个 Linux 头 文件 S 中 的 典型 注释 ， 它 描述 了 使 用 某 个 特定 缓冲 
区 的 规范 。 随 着 时 间 的 推移 ， 对 这 种 形式 所 书写 的 规范 进行 观察 和 解释 则 可 能 使 代码 的 维护 


变 得 非常 复杂 。 








/* 

* When a locked buffer is visible to the I/O layer BH Launder 

x is set. This means before unlocking we must clear BH_Launder, 
* mb() on alpha and then clear BH Lock, so no reader can see 

x BH Launder set on an unlocked buffer and then risk to deadlock. 
*/ 











图 18-1 传统 的 同步 : Linux 内 核 中 的 一 个 典型 注释 


日 ”内 核 v2.4.19 /fs/buffer.c。 
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18.1.2 关于 compareAndSet() 的 问题 


避 开 上 锁 的 方法 之 一 就 是 使 用 类 似 于 compareAndSet( ) 的 操作 原 语 。 但 在 通常 情况 下 ， 采 
用 compareAndSet() 及 其 相关 操作 进行 算法 设计 非常 难 ， 有 时 还 会 带 来 较 高 的 开销 。 其 主要 
的 难点 就 在 于 几乎 所 有 的 同步 原 语 ， 包 括 读 、 写 或 调用 原子 的 compareAndSet( )， 都 只 是 对 
单个 字 进 行 操作 。 这 种 限制 往往 导致 在 算法 设计 中 要 引入 复杂 而 不 寻常 的 数据 结构 。 

我 们 来 分 析 第 10 章 中 的 无 锁 队 列 〈 图 18-2 中 重新 给 出 ) ， 这 里 着 重 研究 底层 的 同步 原 语 。 





public class LockFreeQueue<T> { 
private AtomicReference<Node> head; 
private AtomicReference<Node> tail; 


Node node = new Node(item); 
while (true) { 


1 

2 

3 

4 sä 

5 public void enq(T item) { 
6 

7 

8 Node last = tail.get(); 








9 Node next = last.next.get(); 

10 if (last == tail.get()) { 

11 if (next == null) { 

12 if (last.next.compareAndSet (next, node)) { 
13 tail.compareAndSet (last, node); 
14 return; 

15 } 

16 } else { 

17 tail.compareAndSet (last, next); 
18 

19 } 

20 } 

21 } 

22 } 





图 18-2 LockFreeQueue2E; enq() 方 法 


在 第 12 行 和 第 13 行 之 间 会 出 现 复杂 的 情形 。enq( ) 方 法 调用 compareAndSet()， 改 变 tail 
结 点 的 next 域 并 让 tail1 域 本 身 指向 新 结 点 。 理 想 情况 下 ， 我 们 希望 能 原子 地 组 合 两 个 
compareAndSet() 调 用 ， 但 因为 这 些 调用 是 一 次 一 个 地 出 现 ， 所 以 无 论 enq( ) 还 是 deq( ) 都 有 
可 能 会 遇 到 enq() 完 成 了 一 半 的 情形 (第 12 行 )。 解 决 这 个 问题 的 一 种 办 法 就 是 引入 
multiCompareAndSet( ) 原 语 ， 如 图 18-3 所 示 。 该 方法 的 参数 分 别 是 : 由 对 象 所 组 成 的 数组 
AtomicReference<T>、 由 期 望 值 组 成 的 类 型 1 的 数组 以 及 用 于 更 新 的 由 类 型 1 的 值 所 组 成 的 数 
组 。 该 方法 对 所 有 的 数组 元 素 同 时 执行 compareAndSet()， 如 果 其 中 的 任何 一 个 失败 ， 则 全 
部 失败 。 更 具体 地 说 ， 对 于 所 有 的 i， 如 果 target[] 与 e&xpected[ 引 的 值 相同 ， 则 让 target 站 的 
值 等 于 update[ 站 的 值 ， 并 返回 trxe， 否则 ， 不 改变 target[ 门 ， 返 回 jalse。 

注意 ， 通 常 的 系统 结构 中 并 没有 直接 实现 mu1tiCompareAndSet( ) 的 办 法 。 我 们 现在 假设 
存在 这 样 的 方法 ， 那 么 比较 图 18-2 和 图 18-4 中 LockFreeQueue( ) 的 实现 ， 可 以 发 现 
multiCompareAndSet() 方 法 简化 了 并 发 数据 结构 。 图 18-2 中 第 11 ~ 12 行 的 复杂 逻辑 被 一 个 
multiCompareAndSet() 方 法 所 替换 。 

尽管 像 nu1tiCompareAndSet( ) 这 种 多 字 扩 展 的 方式 非常 有 用 ， 但 它 并 不 能 解决 另外 一 个 
严重 问题 ， 这 将 在 18.1.3 节 中 讨论 。 
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1 <T> boolean multiCompareAndSet ( 

2 AtomicReference<T>[] target, 

3 TE] expected, 

4 TE] update) { 

5 atomic { 

6 for (int i = 0; i < target.length) 

7 if (!target[i].get() .equals(expected[i].get())) 
8 return false; 

9 for (int i = 0; i < target.length) 

10 target[i].set(update[i].get); 

11 return true; 

12 
13 


} 








| } 
图 18-3 multiCompareAndSet( ) 的 伪 代 码 。 该 代码 原子 地 执行 

















1 public void eng(T item) { 
2 Node node = new Node(item); 
3 while (true) { 
4 Node last = tail.get(); 
5 Node next = last.next.get(); 
6 if (last == tail.get()) { 
7 AtomicReference[] target = {last.next, tail}; 
8 TD expect = {next, last}; 
9 T[] update = {node, node}; 
10 if (multiCompareAndSet (target, expect, update)) return; 
11 } 
12 } 
13 
Le 





图 18-4 LockFreeQueue 类 : 采用 multicompareAndSet() 简 化 的 enq( ) 方 法 


18.1.3 关于 复合 性 的 问题 

至 今 为 止 所 讨论 的 同步 机 制 ， 无 论 是 有 锁 的 还 是 无 锁 的 ， 都 存在 一 个 关键 的 缺点 ; 不 能 
简单 地 进行 合成 (复合 )。 假 设 要 从 队列 q0 中 出 队 一 个 元 素 x， 并 将 它 入 队 到 另 一 个 队列 ql 中。 
这 种 转移 必须 是 原子 的 ,任何 并 发 线程 都 不 能 观察 到 x 在 两 个 队列 中 同时 消失 或 出 现 。 在 基于 
管 程 的 Queue 实 现 中 ， 因 为 每 个 方法 都 要 在 内 部 获得 锁 ， 所 以 按照 这 种 方式 合成 两 个 方法 调用 
是 根本 不 可 能 的 。 

无 法 合成 不 仅仅 局 限于 互 斥 。 我 们 考虑 一 个 有 界 队 列 类 ， 每 当 队列 为 空 时 这 个 类 的 deq() 
方法 就 会 被 阻塞 (使 用 wait/notify 或 显 式 的 条 件 对 象 )。 假 设 有 两 个 队列 ， 我 们 要 从 两 个 队 
列 中 的 任 一 个 出 队 一 个 元 素 ， 如 果 这 两 个 队列 都 为 室 ， 则 希望 阻塞 直到 任意 一 个 队列 中 出 现 
一 个 元 素 为 止 。 在 基于 管 程 的 Queue 实 现 中 ， 因 为 每 个 方法 都 提供 了 它 自 己 的 条 件 等 待 ， 所 以 
按照 这 种 方式 在 两 个 条 件 上 等 待 是 根本 不 可 能 的 。 

显然 ， 总 会 存在 一 些 特殊 的 解决 方案 。 对 于 这 种 原子 的 转移 ， 我 们 可 以 引入 一 个 锁 ， 任 
何 试图 对 q0 和 q1 进 行 原子 修改 的 线程 都 要 获得 这 个 锁 。 但 是 ， 这 种 锁 将 会 变 成 一 个 并 发 瓶颈 
(没有 并 发 转移 )， 而 且 要 求 事先 知道 两 个 队列 的 标识 。 也 可 以 让 队列 本 身 输出 它们 的 同步 状 
S 〈 比 如 说 ， 通 过 1ock() 和 un1ock( ) 方 法 ) ， 并 依赖 调用 者 来 管理 多 对 象 的 同步 。 然 而 通过 
这 种 方式 展现 同步 状态 将 会 破坏 程序 的 模块 性 ， 复 杂 化 接口 ， 且 要 求 调用 者 遵守 复杂 的 约定 。 
况且 ， 这 种 简单 的 方法 不 能 用 于 非 阻塞 队列 的 实现 。 
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18.1.4 我 们 能 做 什么 


下 面 总 结 常规 的 同步 原 语 所 存在 的 问题 : 

。 难 以 有 效 地 管理 锁 ， 尤 其 是 在 大 型 系统 中 。 

。 类 似 于 compareAndSet( ) 这 样 的 原 语 一 次 只 能 对 一 个 字 进 行 操作 ， 导 致 算法 复杂 。 

。 很 难 将 多 个 对 象 的 多 个 调用 组 合成 一 个 原子 单位 。 

18.2 节 将 会 引入 事务 内 存 的 概念 ， 这 是 一 种 为 解决 上 述 问题 而 提出 的 新 型 程序 设计 模型 。 


18.2 事务 和 原子 性 


事务 是 单个 线程 所 执行 的 一 系列 操作 步骤 。 事 务必 须 是 可 串 行 化 的 ， 这 意味 着 它们 看 起 
来 应 像 是 按照 一 次 一 个 的 次 序 顺 序 地 执行 。 可 串 行 化 是 可 线性 化 的 一 种 粗 粒度 版 本 。 可 线性 
化 定义 了 单个 对 象 的 原子 性 ， 它 要 求 一 个 给 定 对 象 的 每 次 方法 调用 看 起 来 就 像 是 在 调用 和 啊 
应 之 间 的 某 个 瞬时 起 作用 的 ， 而 可 串 行 化 则 定义 了 所 有 事务 的 原子 性 ， 也 就 是 说 ， 代 码 块 中 
可 能 包含 多 个 对 象 的 调用 。 这 样 ， 能 够 确保 一 个 事务 看 起 来 就 像 是 在 它 的 第 一 个 调用 和 最 后 
一 个 调用 的 响应 之 间 生 效 的 9S。 在 正确 的 实现 中 ， 事 务 不 会 出 现 死 锁 或 者 活 锁 。 

我 们 现在 描述 一 种 在 Java 上 进行 扩展 后 的 简单 程序 设计 语言 ， 它 能 支持 同步 的 事务 模型 。 
这 些 扩展 目前 并 不 是 Java 的 组 成 部 分 ， 但 可 以 用 它们 来 说 明 模型 。 这 里 所 描述 的 特性 是 当前 事 
务 内 存 系统 所 提供 的 常规 特性 。 并 不 是 所 有 的 系统 都 提供 全 部 的 特性 : 有 一 些 提供 较 弱 的 保 
证 ， 而 有 一 些 则 提供 较 强 的 保证 。 然 而 ， 理 解 这 些 特 性 对 于 理解 现代 事务 内 存 模型 大 有 帮助 。 

关键 字 atomic 能 对 事务 进行 定 界 ， 这 和 用 关键 字 Synchronized 对 临界 区 进行 定 界 几 乎 是 
一 样 的 。 当 synchronized 块 获得 一 个 特定 的 锁 时 ， 它 只 是 对 其 他 获得 同一 个 锁 的 
synchronized 块 是 原子 的 ， 而 一 个 atomic 块 则 对 所 有 的 atomic 块 是 原子 的 。 骨 套 的 
synchronized 块 如 果 按 照相 反 的 次 序 来 获得 锁 
则 会 发 生死 锁 ， 而 舱 套 的 atomic 块 却 不 会 。 est Barney liao 

因为 事务 允许 原子 地 修改 多 个 单元 ， 所 以 private Node tail; 

. public TransactionalQueue() { 

不 再 需要 mu1tiCompareAndSet()。 图 18-5 为 事 


Node sentinel = new Node(null); 


3 
4 
5 
务 队列 的 enq() 方 法 。 我 们 把 这 段 代 码 与 图 18-2 | 6 head = sentinel; 
8 








x is: A tail = sentinel; 
的 无 锁 代 码 进 行 比较 : 这 里 不 需要 } | , 
AtomicReferences&. CompareAndSet( )i FA grey enq(T item) { 
和 重 试 循 环 。 在 这 里 ， 代 码 实 质 上 是 由 atomic 11 Node node = new Node(item); 
k ; 12 tail.next = node; 
块 括 起 来 的 顺序 代码 。 13 fait = nodes 
要 说 明 如 何 用 事务 来 写 并 发 程序 ， 首 先 要 和 } 
说 明 它 们 是 如 何 实现 的 。 事 务 总 是 试探 性 地 | 
(speculatively) 进行 执行 : 当 一 事务 执行 时 ， 图 18-5 无 界 的 事务 队列 : enq ) 方 法 


它 对 对 象 进 行 暂 时 的 (tentative) 改变 。 如 果 它 没有 遇 到 同步 冲突 就 能 执行 完 ， 则 事务 提交 
(暂时 的 改变 变 成 永久 性 的 ) ， 否 则 该 事务 终止 〈 暂 时 的 改变 被 放弃 ) 。 

事务 可 以 嵌 套 。 事 务 的 伐 套 必须 按照 简单 的 模块 方式 : 一 个 方法 可 以 启动 一 个 事务 ， 然 
后 再 调用 另 一 个 方法 ， 但 不 用 关心 这 个 嵌 套 的 调用 是 否 启动 了 一 个 事务 。 如 果 要 求 一 个 仍 套 


日 ”在 一 些 文献 中 ， 可 串 行 化 定义 不 要 求 事务 按照 与 实时 优先 次 序 相 兼 容 的 次 序 来 串 行 化 。 











A 
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事务 能 够 终止 但 却 不 终止 它 的 父 事 务 ， 这 时 嵌 套 事务 就 特别 有 用 。 在 后 面 讨论 条 件 同步 时 ， 
这 个 性 质 特别 重要 。 cr 

回忆 一 下 ， 将 一 个 元 素 从 一 个 队列 原子 地 移 到 另 一 个 队列 ， 2 x = q0.deq(); 
这 对 于 使 用 内 部 管 程 锁 的 对 象 而 言 实质 上 是 不 可 能 的 。 而 采用 人 
事务 合成 这 种 原子 的 方法 调用 却 是 非常 容易 的 。 图 18-6 描 述 了 
如 何 合成 从 队列 90 中 出 队 元 素 x* 的 deq( ) 调 用 和 入 队 x 到 队列 q1 图 18-6 合成 原子 方法 调用 
的 enq(x) 调 用 。 

那么 条 件 同步 将 会 怎样 呢 ? 图 18-7 为 用 于 有 界 缓冲 区 的 enq( ) 方 法 。 该 方法 进入 atomic 块 











(第 2 行 )， 测 试 缓冲 区 是 否 满 (第 3 行 )。 如 果 是 满 的 ， i  PHEASO-WOIE engt I | 
则 调用 retry (38447) 回 滚 封装 的 事务 ， 首 先 终止 2 ily NEN EPIT 
事务 ， 当 该 对 象 状态 已 经 改变 时 则 重启 事务 。 条 件 |? en ee 
同步 是 要 求 只 回 深 册 套 事务 而 不 回 深 父 事务 的 原因 | 5 items [tail] = 3; 

6 if (++tail == items.length) 
之 一 ， 因 为 这 种 方式 对 条 件 同步 非常 方便 。 与 7 tail = 9; 
wait( ) 方 法 或 显 式 的 条 件 变 量 不 同 ，retry 并 不 是 简 
单 地 让 出 它 自己 ， 从 而 丢失 唤醒 故障 。 10} 











回忆 一 下 ， 在 使 用 具有 内 部 管 程 条 件 变量 的 对 
象 时 , 等待 若 干 个 条 件 中 的 一 个 变 成 true 是 不 可 能 的 。 
retry 的 一 个 新 颖 之 处 就 是 使 这 种 合成 变 得 非常 容 
易 。 图 18-8 是 说 明 orE1se 语 名 的 代码 段 ， 它 可 以 连接 两 个 或 多 个 代码 块 。 在 这 里 ， 线 程 先 执 
行 第 一 个 块 〈 第 2 行 )。 如 果 这 个 块 调用 了 retry， 则 该 


图 18-7 有 界 事务 队列 : 具有 
retry 的 enq( ) 方 法 








子 事务 回 滚 ， 线 程 执行 第 二 个 块 (第 4 行 )。 如 果 第 二 个 eee 
块 也 调用 了 retry， 那 么 orE1se 作 为 一 个 整体 被 终止， a. pea igi 
然后 返回 执行 每 个 块 ( 当 发 生菜 些 改变 时 )， 直 到 有 5) 

个 块 完成 为 止 。 


图 18-8 orEs1e 语 句 : 等 待 多 重 条 件 
在 本 章 余下 的 部 分 里 ， 我 们 研究 事务 内 存 的 实现 技 


术 。 事 务 同步 可 以 用 硬件 实现 (HTM) ， 也 可 以 用 软件 实现 (STM) ， 或 综合 使 用 两 者 来 实现 。 
下 面 章节 将 介绍 STM 的 实现 。 


18.3 软 事务 内 存 


遗憾 的 是 ， 目 前 并 不 提供 对 18.2 节 所 描述 语言 的 支持 。 因 此 ， 本 节 将 介绍 如 何 使 用 软件 库 
来 支持 事务 同步 。 首 先 介 绍 TinyTM， 这 是 一 种 简单 的 软 事务 内 存 包 ， 它 也 是 18.2 节 所 描述 语 
言 的 扩展 目标 。 为 简单 起 见 ， 我 们 不 考虑 类 似 于 幅 套 事务 、retry 和 orE1se 等 重要 的 问题 。 软 
事务 内 存 的 构造 应 包含 两 个 方面 的 因素 ， 运行 事务 的 线程 以 及 它们 所 访问 的 对 象 。 

我 们 通过 对 并 发 SkipList (类 似 于 第 14 章 的 跳 表 ) 的 部 分 实现 进行 分 析 来 阐述 这 些 概念 。 
该 类 采用 跳 表 实现 能 提供 常用 方法 的 集合 : add(x) 将 x 添加 到 集合 ，remove(x) 从 集合 中 删除 x， 
当 且 仅 当 x 属于 该 集合 时 contains(x) 返 回 true。 

回忆 一 下 ， 跳 表 是 一 个 链表 的 集合 。 链 表 中 的 每 个 结 点 都 包含 一 个 item 域 (集合 中 的 一 
个 元 素 )、 一 个 key 域 (元素 的 哈 希 码 ) 和 一 个 next 域 (next 域 是 由 指向 链表 中 后 继 结 点 的 引 
用 所 组 成 的 数组 ) 。 数 组 槽 0 指向 链表 中 最 近 的 下 一 个 结 点 ， 编 号 越 高 的 数组 槽 则 按 序 指向 越 
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后 的 后 继 结 点 。 要 找到 给 定 的 关键 字 ， 首 先 从 较 高 的 层 进行 查找 ， 若 查找 不 命中 ， 则 转向 
wa 这 种 方式 能 够 在 链表 长 度 的 对 数 时 间 内 找到 一 个 元 素 。( 参 阅 第 14 章 ， 了 解 跳 表 的 
详细 描述 。) 

在 TinyTM 中 ， 线 程 通过 共享 的 原子 对 象 进行 通 信 ， 这 种 对 象 提供 了 同步 ， 能 确保 事务 不 
会 看 到 其 他 未 提交 事务 的 效应 ， 并 能 撤销 已 终止 事务 的 影响 来 进行 恢复 。 原 子 对 象 的 域 是 不 

能 直接 访问 的 ， 而 只 能 通过 getter 和 setter 方 法 间接 地 访问 。 例 如 ，key 域 的 getter 方 法 的 
形式 为 : 

int getKey(); 

而 相应 的 setter 方 法 的 形式 则 为 : 

void setKey(int value); 

通过 getter 和 setter 对 域 进行 访问 ， 可 以 提供 在 每 次 域 访问 中 插入 事务 同步 和 恢复 的 能 
力 。 图 18-9 描 述 了 SkipNode 的 完整 接口 。 


public interface SkipNode<T> { 
public int getKey(); 
public void setKey(int value); 
public T getItem(); 


public void setItem(T value); 
public AtomicArray<SkipNode<T>> getNext(); 
public void setNext (AtomicArray<SkipNode<T>> value); 








图 18-9 SkipNode 接口 


SkipList 的 事务 实现 同样 也 不 能 使 用 标准 数组 ， 因 为 TinyTM 无 法 截获 对 数组 的 访问 。 相 
ke, TinyTM 提 供 了 AtomicArray<T> 类 ， 它 支持 与 规则 数组 相同 的 功能 。 

图 18-10 给 出 SkipNodeSet 类 的 域 和 构造 函数 ， 图 18-11 给 出 add( ) 方 法 的 代码 。 除 了 因 
getter 和 setter 所 引起 的 语法 复杂 化 以 外 ， 这 个 代码 与 顺序 实现 的 代码 几乎 完全 一 样 。 
(getter 和 setter 调 用 可 以 由 编译 器 或 预 处 理 器 生成 ， 但 在 这 里 ， 我 们 让 调用 是 显 式 
的 。) 第 21 行 创建 了 一 个 新 的 实现 了 SkipNode 接 口 的 TSkipNode (事务 的 跳 表 结 点 ) 。 我 们 将 
在 后 面 介绍 这 个 类 。 











public final class SkipListSet<T> { 
final SkipNode<T> head; 
final SkipNode<T> tail; 
public SkipListSet() { 
head = new TSkipNode<T>(MAX HEIGHT, Integer.MIN VALUE, null); 
tail = new TSkipNode<T>(0, Integer.MAX_ VALUE, null); 


AtomicArray<SkipNode<T>> next = head.getNext(); 
for (int i = 0; i < next.length; i++) { 
next.set(i, tail); 
} 
} 


WOON ANH PWN 





图 18-10 SkipListSet 类 ， 域 和 构造 函数 


返回 一 个 T 类 型 值 的 事务 是 通过 Ca11able<T> 对 象 实现 的 ( 见 第 16 章 )， 要 被 执行 的 代码 被 
封装 到 该 对 象 的 ca11( ) 方 法 中 。 


D 
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public boolean add(T v) { 
int topLevel = randomLevel(); 


SkipNode<T>[] preds = (SkipNode<T>[]) new SkipNode[MAX_HEIGHT] ; 
SkipNode<T>[] succs = (SkipNode<T>[]) new SkipNode[MAX_HEIGHT] ; 


if (find(v, preds, succs) != -1) { 
return false; 


} 


SkipNode<T> newNode = new TSkipNode<T>(topLevel+i, v); 

for (int level = 0; level <= topLevel; level++) { 
newNode.getNext().set(level, succs[level]); 
preds[level] .getNext().set(level, newNode) ; 


return true; 


图 18-11 SkipListSet 类 : add() 方 法 





事务 线程 (TThread 类 ) 是 一 种 能 运行 事务 的 线程 。TThread (图 18-12) 通过 调用 以 


Callable<T> 对 象 作为 参数 的 doIt( ) 方 法 来 运行 事务 。 图 18-13 是 一 个 事务 线程 将 一 系列 值 插 
入 到 一 个 跳 表 树 的 代码 段 。 变 量 1ist 是 由 多 个 事务 线程 所 共享 的 跳 表 。 这 里 ， 调 用 doIt( ) 的 
参数 是 一 个 匿名 内 部 类 ， 这 是 一 种 Java 构 造 ， 它 允许 以 内 联 方 式 声明 短期 类 。result 变 量 是 


一 个 布尔 值 ， 用 于 说 明 这 个 值 是 否 已 经 存在 于 链表 中 。 





















下 面 详细 地 说 明 TinyTNM 的 实现 。 在 18.3.1 节 中 ， 描 述 事务 线程 的 实现 ， 
现 原子 的 事务 对 象 。 


public class TThread extends java.lang.Thread { 
static Runnable onAbort = ...; 
static Runnable onCommit = ...; 
static Callable<Boolean> onValidate = ...; 


public static <T> T dolt(Callable<T> xaction) throws Exception { 


T result = null; 
while (true) { 
Transaction me = new Transaction(); 
Transaction.setLocal (me) ; 
try { 
result = xaction.call(); 
} catch (AbortedException e) { 
} catch (Exception e) { 
throw new PanicException(e) ; 
} 
if (onValidate.call()) { 
if (me.commit()) { 
onCommit.run(); return result; 
} 
} 
me.abort(); 
onAbort.run(); 


18-12 TThread2k 
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1 SkipListSet<Integer> list = new SkipListSet<Integer>(); 
2 for (int i = 0; i < 100; i++) { 

3 result = TThread.doIt( new Callable<Boolean>() { 

4 public Boolean call() { 

5 return list.add(i); 

6 } 

7 Hs 
8 





图 18-13 添加 元 素 到 整数 链表 


18.3.1 事务 和 事务 线程 


事务 的 状态 封装 在 一 个 线程 本 地 的 Transaction 对 象 中 ( 见 图 18-14), 该 对 象 有 三 种 状态 : 
ACTIVE、ABORTED 和 COMMITTED (第 2 行 )。 当 创建 一 个 事务 时 , 它 的 默认 状态 为 ACTIVE (第 11 行 )。 
为 方便 起 见 ， 对 那些 当前 不 在 一 个 事务 中 执行 的 线程 定义 一 个 固定 的 Transaction. 
COMMITTED 事 务 对 象 (第 3 行 )。Transaction 类 还 要 使 用 一 个 线程 本 地 域 10cal 来 记录 每 个 线 
程 的 当前 事务 (第 5~8 行 )。 





1 public class Transaction { 

2 public enum Status {ABORTED, ACTIVE, COMMITTED}; 

3 public static Transaction COMMITTED = new Transaction(Status.COMMITTED); 
4 private final AtomicReference<Status> status; 

5 static ThreadLocal<Transaction> local = new ThreadLocal<Transaction>() { 
6 protected Transaction initialValue() { 

7 return new Transaction(Status.COMMITTED) ; 

8 } 





9 }; 

10 public Transaction() { 

11 status = new AtomicReference<Status>(Status ACTIVE); 
12 } 

13 private Transaction(Transaction.Status myStatus) { 

14 status = new AtomicReference<Status>(myStatus) ; 

15 } 

16 public Status getStatus() { 

17 return status.get(); 

18 } 

19 public boolean commit() { 

20 return status.compareAndSet (Status.ACTIVE, Status.COMMITTED) ; 
21 } 

22 public boolean abort() { 

23 return status.compareAndSet (Status.ACTIVE, Status.ABORTED) ; 
24 |} 

25 public static Transaction getLocal() { 

26 return local.get(); 

27 } 

28 public static void setLocal(Transaction transaction) { 
29 local.set (transaction); 








图 18-14 Transaction% 


comit ) 方 法 尝试 着 将 事务 状态 从 ACTIVE 改 为 COMMITTED (第 19 行 )，abort() 方 法 将 事 
务 状态 从 ACTIVE 改 为 ABORTED (第 22 行 )。 线 程 可 以 通过 调用 getStatus() 来 测试 它 的 当前 事 
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务 状态 (第 16 行 )。 如 果 线 程 发 现 它 当 前 的 事务 已 终止 ， 则 抛 出 AbortedException 异 常 。 线 
程 可 以 通过 调用 静态 的 getLoca1() 和 setLoca1() 方 法 来 获得 和 设置 它 的 当前 事务 。 

TThread 类 (事务 线程 ) 是 标准 Java 的 Thread 类 的 一 个 子 类 (图 18-12) 。 每 个 事务 线程 都 
有 几 个 相关 的 处 理 程序 。 当 事务 提交 或 终止 时 ， 会 调用 onCommit 和 onAbort 处 理 程序 ， 当 事 
务 准 备 提 交 时 ， 会 调用 确认 处 理 程 序 。 它 返回 一 个 布尔 值 ， 以 说 明 线 程 的 当前 事务 是 否 应 该 
尝试 提交 。 这 些 处 理 程序 可 以 在 运行 时 定义 ， 后 面 我 们 将 会 看 到 如 何 使 用 这 些 处 理 程序 来 实 
现 不 同 的 事务 同步 和 恢复 技术 。 

doIt() 方 法 (第 5 行 ) 以 Cal11able<T> 对 象 作 为 输入 ， 并 将 它 的 ca11() 方 法 作为 一 个 事务 
来 执行 。 它 创建 一 个 新 的 ACTIVE 事 务 (第 8 行 )， 然 后 调用 这 个 事务 的 ca11( ) 方 法 。 如 果 该 方 
法 抛 出 AbortedException 异 常 (第 12 行 )， 那 么 doIt() 方 法 简单 地 重 试 这 个 循环 。 任 何其 他 
的 异常 都 意味 着 应 用 已 出 错 (第 13 行 )，( 为 简单 起 见 ) 方法 将 抛 出 PanicException， 打 印 出 
错 信息 并 停止 所 有 程序 。 如 果 事 务 返 回 ， 那 么 doIt( ) 调 用 确认 处 理 程序 来 测试 是 否 准备 提交 
(第 16 行 )， 如 果 确 认 成 功 ， 则 尝试 提交 事务 〈 第 17 行 )。 如 果 提 交 成 功 ， 则 运行 提交 处 理 程序 
并 返回 〈 第 18 行 )。 否 则 ， 如 果 确 认 失 败 ， 则 显 式 地 终止 这 个 事务 。 不 论 任 何 原因 导致 提交 失 
败 ， 则 在 重 试 之 前 运行 终止 处 理 程序 (第 22 行 )。 


18.3.2 僵尸 事务 和 一 致 性 


同步 冲突 会 导致 事务 终止 ,但 在 冲突 发 生 之 后 并 不 一 定 能 立刻 终止 事务 的 线程 。 相 反 ， 
即使 这 种 伪 尸 事务 已 不 能 提交 ， 但 它们 仍 可 能 继续 运行 。 这 种 情况 导致 了 另外 一 个 重要 的 
设计 问题 : 如 何 防止 僵尸 事务 看 到 不 一 致 的 状态 。 

下 面 解释 为 什么 会 出 现 不 一 致 状态 。 一 个 对 象 有 两 个 域 f 和 y， 初 始 时 分 别 为 1 和 2。 每 个 
事务 都 保持 着 不 变 式 y 总 是 等 于 2x。 事务 Z 读 y, 看 到 其 值 为 2。 事务 A 将 x 和 y 的 值 分 别 改 为 2 和 4， 
并 提交 。2Z 现 在 变 为 僵尸 ， 尽 管 它 仍 在 运行 ， 但 绝 不 可 能 提交 。2Z 稍 后 读 y”， 值 为 2， 这 与 它 对 x 
读 的 值 不 一 致 。 

一 种 解决 办 法 就 是 认为 这 种 不 一 致 状态 无 关 紧 要 。 因 为 僵尸 事务 最 终 一 定 会 终止 ， 它 们 
的 修改 会 被 丢弃 ， 所 以 为 什么 要 去 关心 它们 看 到 什么 呢 ? 不 幸 的 是 ， 即 使 僵尸 事务 的 更 新 不 
会 产生 影响 ， 但 仍然 会 引起 一 些 问题 。 在 前 面 的 场景 中 ， 每 个 一 致 的 状态 都 有 y=2x， 但 是 Z 已 
读 到 不 一 致 的 x 和 y 〈 值 都 为 2) ， 那 么 如 果 2Z 要 计算 表达 式 

1/(x—y) 
它 就 会 抛 出 一 个 被 零 除 的 “不 可 能 ”异常 ， 从 而 导致 线程 终止 ， 甚 至 可 能 使 应 用 崩溃 。 同 样 
的 原因 ， 如 果 Z 现 在 要 执行 循环 

int i =x+1; // i is 3 

while (i++ != y) { // y is actually 2, should be 4 

re 
那么 它 将 永远 都 不 会 停止 。 

在 无 法 依赖 不 变 式 的 程序 设计 模型 中 ， 不 存在 避免 “不 可 能 ”异常 和 无 限 的 循环 的 可 行 
方法 。 所 以 ，TinyTM 保 证 所 有 的 事务 ， 甚 至 是 僵尸 事务 ， 都 会 看 到 一 致 的 状态 。 





O ”僵尸 是 一 个 舞动 的 尸体 。 僵 尸 的 故事 起 源 于 加 勒 比 黑 人 的 伏 都 教 精神 信仰 。 
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18.3.3 原子 对 象 


正如 前 面 所 讲 的 ， 并 发 事务 通过 共享 的 原子 对 象 进 行 通信 。 我 们 已 知 (图 18-9) ， 对 原子 
对 象 的 访问 是 通过 一 个 典型 的 接口 来 实现 的 ， 该 接口 提供 一 组 匹配 的 getter 和 setter 方 法 。 
图 18-15 描 述 了 Atomicobject 接 口 。 


public abstract class AtomicObject <T extends Copyable<T>> { 
protected Class<T> internalClass; 
protected T internal lnit; 
public AtomicObject(T init) { 
internalinit = init; 
internalClass = (Class<T>) init.getClass(); 


public abstract T openRead(); 
public abstract T openWrite(); 
public abstract boolean validate(); 











图 18-15 抽象 类 Atomic0bject<T> 


下 面 将 构造 两 种 类 来 实现 这 个 接口 : 一 种 是 顺序 实现 ， 不 提供 同步 或 恢复 ; 另 一 种 是 事 
务实 现 ， 提 供 同 步 和 恢复 。 在 这 里 ， 这 两 种 类 同样 也 可 以 通过 编译 器 来 简单 地 生成 ， 但 是 ， 
我 们 将 采用 手动 方式 来 实现 它们 的 构造 。 

顺序 实现 是 很 简单 的 。 对 于 每 个 匹配 对 getter-setter， 如 : 


T getItem(); 
void setItem(T value); 


顺序 实现 都 定义 了 一 个 类 型 为 T 的 私有 域 item。 另 外 ， 我 们 还 要 求 顺 序 实现 满足 简单 的 
Copyab1le<T> 接 口 ， 它 提供 copyTo( ) 方 法 来 将 一 个 对 

1 public interface Copyable<T> { 
象 的 域 复制 到 另外 一 个 对 象 (图 18-16)。 由 于 技术 原 2 void copyTo(T target); 
因 ， 这 个 类 型 还 应 提供 一 个 不 带 参数 的 构造 函数 。 为 3 | 
简单 起 见 ， 我 们 使 用 术语 版 本 (version) 来 表示 原子 图 18-16 Copyable<T> 接 口 
对 象 接 口 的 顺序 的 、Copyable<T> 实 现 的 一 个 实例 。 

图 18-17 为 SSkipNode 类 ， 它 是 SkipNode 接 口 的 一 种 顺序 实现 。 该 类 有 三 个 部 分 。 首 先 ， 
必须 提供 一 个 为 原子 对 象 实 现 所 使 用 的 无 参 构造 函数 ( 稍 后 描述 )， 也 可 以 提供 其 他 便于 该 类 
实现 的 构造 函数 。 其 次 ， 应 提供 由 接口 定义 的 getter 和 setter， 其 中 每 个 getter 和 setter 只 
是 简单 地 读 / 写 它 的 相关 域 。 最 后 ， 还 要 实现 Copyable 接 口 ， 提 供 能 用 另 一 个 对 象 的 域 来 初始 
化 一 个 对 象 域 的 copyTo( ) 方 法 。 需 要 这 样 一 个 方法 是 为 了 备份 顺序 对 象 的 副本 。 


18.3.4 如何 演进 


事务 内 存 的 目标 之 一 就 是 让 程序 员 不 必 担 心 饥饿 、 死 锁 以 及 上 锁 所 具有 的 “肉体 之 百 患 ”。 
但 是 ， 实 现 STM 的 事务 内 存 必须 决定 应 该 满足 什么 样 的 演进 条 件 。 

回顾 第 3 章 可 知 ， 满 足 强 不 相关 演进 条 件 的 实现 〈 如 无 等 待 或 无 锁 ) ， 能 保证 线程 总 会 所 
前 推进 。 然 而 ， 尽 管 可 以 设计 出 无 等 待 或 无 锁 的 STM 系统 ， 但 设 有 人 知道 如 何 使 它们 变 得 高 
效 实用 。 

对 非 阻塞 STM 的 研究 主要 是 针对 弱 相 关 演 进 条 件 来 开展 的 有 两 种 途径 能 够 保证 较 好 的 性 能 : 
无 干扰 的 STM (也 是 无 阻塞 的 ) 和 基于 锁 的 阻塞 式 STM (也 是 无 死 锁 的 ) 。 就 像 其 他 非 阻 塞 条 件 
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一 样 ， 无 干扰 性 能 保证 不 是 所 有 的 线程 都 能 被 其 他 线程 的 延迟 或 故障 所 阻塞 。 这 种 特性 比 无 锁 同 
步 要 弱 一 些 ， 因 为 当 两 个 或 两 个 以 上 的 冲突 线程 并 发 执行 时 ， 它 不 能 保证 程序 继续 向 前 推进 。 





1 public class SSkipNode<T> 

2 implements SkipNode<T>, Copyable<SSkipNode<T>> { 
3 AtomicArray<SkipNode<T>> next; 
4 int key; 

5 T item; 

6 public SSkipNode() {} 
7 public SSkipNode(int level) { 

8 next = new AtomicArray<SkipNode<T>>(SkipNode.class, level); 

9 } 

10 public SSkipNode(int level, int myKey, T myItem) { 

li this(level); key = myKey; item = myItem; 

12 } 

13 public AtomicArray<SkipNode<T>> getNext() {return next; } 

14 public void setNext (AtomicArray<SkipNode<T>> value) {next = value; } 
15 public int getKey() {return key;} 

16 public void setKey(int value) {key = value;} 

17 public T getItem() {return item;} 

18 public void setItem(T value) {item = value;} 








20 public void copyTo(SSkipNode<T> target) { 
21 target.next = next; 

22 target.key = key; 

23 target.item = item; 

24 } 

25 } 





图 18-17 SSkipNode%: 顺序 的 SkipNode 实 现 


如 采 线 程 在 临界 区 内 发 生 中 断 ， 无 死 锁 特性 并 不 能 保证 继续 演进 。 幸 运 的 是 ， 和 我 们 早 
先 学 过 的 大 多 数 基于 锁 的 数据 结构 一 样 ， 现 代 操作 系统 的 调度 程序 能 够 最 小 化 线程 在 事务 中 
间 被 调 出 的 概率 。 就 像 无 干扰 一 样 ， 在 两 个 或 多 个 冲突 线程 并 发 执行 时 ， 无 死 锁 特性 不 能 保 
证 程序 继续 向 前 推进 。 

在 无 阻塞 的 无 干扰 和 阻塞 的 无 死 锁 STM 中 ， 冲 突 事务 的 演进 是 由 争 用 管理 器 来 保证 的 ， 
这 是 一 种 决定 何 时 延迟 争 用 线程 的 机 制 ， 它 通过 自 旋 或 届 从 使 某 个 线程 总 是 能 够 前 进 。 


18.3.5 争 用 管理 器 


和 大 多 数 其 他 的 STM 一 样 ， 在 TinyTM 中 ， 一 个 事务 能 够 检测 出 它 将 在 何 时 引起 一 个 同步 冲 
突 。 然 后 ， 请 求 者 事务 向 争 用 管理 器 进行 询问 。 争 用 管理 器 的 作用 与 古 希 腊 神 论 (oracle) 9S 
的 作用 一 样 ， 通 知 这 个 事务 是 否 立即 终止 另 一 个 事务 ， 或 者 让 自己 停 下 来 给 另 一 个 线程 完成 
的 机 会 。 显 然 ， 没 有 事务 会 永远 停止 来 等 待 另 一 个 事务 。 

图 18-18 描述 了 一 种 简化 的 争 用 管理 器 基 类 。 它 提供 了 单一 的 resolve() (第 12 行 ) 方法 ， 
该 方法 以 两 个 事务 (请 求 者 事务 和 另 一 个 事务 ) 作为 输入 ， 或 者 暂时 中 止 请 求 者 事务 或 者 终 
止 另 一 个 事务 。 该 方法 同时 也 通过 getLocal1() 和 setLoca1() (第 16 行 和 第 13 行 ) 跟踪 每 个 线 
程 的 本 地 争 用 管理 器 (第 2 行 )。 

ContentionManager 类 是 抽象 的 ， 因 为 它 并 没有 实现 任何 冲突 解决 策略 。 下 面 给 出 一 些 可 





日 ” 追 漳 到 公元 前 1400 年 ， 德 尔 非 预 言 灵 石 一 希腊 神 派 提 亚 对 农业 和 战争 进行 建议 和 预言 。 
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争 用 管理 器 策略 。 假 设 事务 4 将 与 事务 B 发 生 冲 突 。 


1 public abstract class ContentionManager { 

2 static ThreadLocal<ContentionManager> local 

3 = new ThreadLocal<ContentionManager>() { 

4 protected ContentionManager initialValue() { 
5 try { 
6 
7 
8 








return (ContentionManager) Defaults .MANAGER.newInstance(); 
} catch (Exception ex) { 
throw new PanicException(ex); 


9 } 

10 } 

11 hs 

12 public abstract void resolve(Transaction me, Transaction other); 
13 public static ContentionManager getLocal() { 

14 return local.get(); 

15 

16 public static void setLocal(ContentionManager m) { 
17 Tocal.set(m); 

18 } 

19 } 





图 18-18 争 用 管理 器 基 类 


。 后 退 策略 : 4 不 断 地 后 退 一 个 随机 的 时 间 间 隔 ， 并 加 倍 期 望 时 间 直 到 某 个 界限 。 当 达到 
该 界限 时 ，A 则 终止 B。 

。 优 先 级 策略 : 每 个 事务 在 启动 时 获得 一 个 时 间 惟 。 如 果 4 的 时 间 惟 比 B 的 早 ， 那 么 4 终止 
B, 否则 4 等 待 。 一 个 终止 后 重启 的 事务 仍 保持 它 的 老 时 间 惟 ， 以 保证 每 个 事务 最 终 都 


Sb 2s 
REJE 


ASRR: 每 个 事务 在 启动 时 获得 一 个 时 间 惟 。 如 果 4 的 时 间 戳 比 B3 的 早 ， 或 者 B 在 等 待 
另 一 个 事务 ， 那 么 4 终止 8B。 这 种 策略 消除 了 等 待 事务 链 。 和 优先 级 策略 一 样 ， 每 个 事 
务 最 终 都 能 完成 

。 因果 策略 : 每 个 事务 记录 它 已 完成 的 工作 ， 完成 工作 越 多 的 事务 优先 级 越 高 。 

图 18-19 描 述 了 一 种 采用 后 退 策略 的 争 用 管理 器 实现 。 该 管理 器 指定 最 小 和 最 大 的 延迟 


public class BackoffManager extends ContentionManager { 








1 

2 private static final int MIN DELAY = ...; 
3 private static final int MAX_DELAY ed 
4 Random random = new Random(); 

5 Transaction previous = null; 

6 int delay = MIN DELAY; 

7 public void resolve(Transaction me, Transaction other) { 
8 if (other != previous) { 

9 previous = other; 

10 delay = MIN DELAY; 

11 } 

12 if (delay < MAX DELAY) { 

13 Thread.sleep(random.nextInt (delay) ); 
14 delay = 2 * delay; 

15 } else { 

16 other. abort (); 
17 delay = MIN DELAY; 
18 } 
19 } 


图 18-19 简化 的 争 用 管理 器 实 
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(第 2 一 3 行 )。resolve( ) 方 法 检查 是 否 是 第 一 次 遇 到 另 一 个 线程 〈 第 8 行 )。 如 果 是 ， 则 重 置 它 
的 延迟 为 最 小 值 ， 否 则 使 用 当前 的 延迟 。 如 果 当 前 的 延迟 比 最 大 值 小 ， 线 程 则 休眠 由 延迟 值 
所 限定 的 一 个 随机 时 延 〈 第 13 行 )， 并 加 倍 下 一 个 延迟 。 如 果 当 前 的 延迟 值 超过 最 大 值 ， 则 由 
调用 者 终止 另 一 个 事务 (第 16 行 )。 


18.3.6 原子 对 象 的 实现 


可 线性 化 性 要 求 单 个 方法 调用 看 起 来 就 像 是 原子 地 发 生 。 现 在 考虑 如 何 保证 可 串 行 化 性 : 
多 个 原子 地 调用 具有 相同 的 性 质 。 

原子 对 象 的 事务 实现 必须 提供 getter 和 setter 方 法 ， 以 调用 事务 的 同步 和 恢复 。 回 顾 同 
步 和 恢复 的 两 种 办 法 : Free0bject 类 是 无 干扰 的 ， 而 Lock0bject 类 则 使 用 锁 来 同步 。 这 两 个 
类 都 是 抽象 Atomic0bject 类 的 实现 , 如 图 18-15 所 示 。init( ) 方 法 以 该 原子 对 象 的 类 作为 参数 ， 
并 将 其 记录 下 来 以 便 将 来 使 用 。openRread( ) 方 法 返回 一 个 适合 读 的 版 本 ( 即 只 能 调用 它 自己 
的 getter 方 法 ) ， 而 openWrite( ) 方 法 则 返回 一 个 可 以 写 的 版 本 〈 即 可 以 调用 getter 和 Setter 
方法 )。 

当 且 仅 当 能 够 保证 返回 值 是 一 致 的 值 时 ，validate( ) 方 法 才 返 回 true。 在 返回 任何 从 原 
子 对 象 提 取 的 信息 之 前 ， 必 须 调用 validate()。openRead()、openWrite() 和 validate() 方 
法 都 是 抽象 的 。 

图 18-20 描 述 了 TSkipNode 类 ， 这 是 SkipNode 的 一 种 事务 实现 。 这 个 类 使 用 Lock0bject 原 
子 对 象 实现 来 进行 同步 和 恢复 (第 8 行 )。 











1 public class TSkipNode<T> implements SkipNode<T> { 
2 AtomicObject<SSkipNode<T>> atomic; 
3 public TSkipNode(int level) { 
4 atomic = new LockObject<SSkipNode<T>>(new SSkipNode<T>(level)); 
5 
6 public TSkipNode(int level, int key, T item) { 
7 atomic = 
8 new LockObject<SSkipNode<T>>(new SSkipNode<T>(level, key, item)); 
9 } 
10 public TSkipNode(int level, T item) { 
11 atomic = new LockObject<SSkipNode<T>>(new SSkipNode<T>(level, 
12 item.hashCode(), item)); 
13 } 
14 public AtomicArray<SkipNode<T>> getNext() { 
15 AtomicArray<SkipNode<T>> forward = atomic.openRead().getNext(); 
16 if (!atomic.validate()) 
17 throw new AbortedException(); 
18 return forward; 
19 
20 public void setNext (AtomicArray<SkipNode<T>> value) { 
21 atomic.openWrite().setNext (value) ; 
22 } 
23 // getKey, setKey, getItem, and setItem omitted ... 
24 } 





图 18-20 TSkipNode 类 : SkipNode 的 事务 实现 


该 类 具有 一 个 Atomicobject<SSkipNode> 域 。 构 造 国 数 以 SSkipNode 对 象 作为 参数 来 初始 
化 Atomicobject<SSkipNode> 域 。 每 个 getter 执 行 下 面 的 操作 序列 。 
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1. 调用 openRead( ) 来 提取 一 个 版 本 。 

2. 调用 那个 版 本 的 getter 来 提取 存放 在 局 部 变量 中 的 域 值 。 

3. 调用 validate( ) 来 确保 读 到 的 值 是 一 致 的 。 

最 后 一 个 步骤 用 来 确保 在 第 一 步 和 第 二 步 之 间 对 象 没 有 发 生 改 变 ， 且 在 第 二 步 中 所 记录 
的 值 与 事务 观察 到 的 其 他 值 是 一 致 的 。 

setter 以 同样 的 方式 来 实现 ， 但 在 第 二 步 中 调用 getter 。 

现在 已 介绍 了 两 种 原子 对 象 的 实现 。 为 简化 表述 ， 没 有 对 实现 进行 相应 的 优化 。 


18.3.7 无 干扰 原子 对 象 


回想 一 下 ， 如 果 对 于 任意 的 线程 ， 如 果 它 自己 运行 足够 长 的 时 间 仍 能 继续 推进 ， 那 么 这 
个 算法 称 为 无 干扰 的 。 在 实际 中 ， 这 种 条 件 表示 线程 能 运行 足够 长 的 时 间 而 不 与 其 他 并 发 线 
程 发 生 同步 冲突 ， 一直 在 向 前 推进 。 下 面 我 们 描述 Atomic0bject 的 一 种 无 干扰 实现 。 

概述 

每 个 对 象 有 三 个 逻辑 域 ，owner 域 、o1d 版 本 和 new 版 本 。( 之 所 以 称 为 逻辑 域 ， 是 因为 它 
们 可 能 不 是 作为 域 来 实现 的 。) owner 是 访问 对 象 的 最 后 一 个 事务 。01d 版 本 是 owner 事 务 到 达 
之 前 对 象 的 状态 ， 如 果 有 更 新 ，new 版 本 反映 事务 的 更 新 。 如 果 owner 为 COMMITTED， 那 么 new 
版 本 是 对 象 的 当前 状态 ， 若 它 是 ABORTED ， 那 么 o1d 版 本 是 对 象 的 当前 状态 。 如 果 owner 为 
ACITVE， 则 不 存在 当前 版 本 ， 且 未 来 的 当前 版 本 取决 于 owner 是 提交 还 是 终止 。 

当 一 个 事务 开始 时 ， 它 创建 一 个 Transaction 对 象 来 保存 这 个 事务 的 状态 ， 初 始 时 为 
ACTIVE。 如 果 该 事务 提交 了 ， 则 由 这 个 事务 将 状态 设置 为 COMMITTED ， 如 果 这 个 事务 被 另 一 
个 事务 终止 ， 那 么 由 另 一 个 事务 将 其 状态 设置 为 ABORTED 。 

每 当 事 务 4 访问 一 个 对 象 时 ， 首 先 打 开 那 个 对 象 ， 有 可 能 需要 重新 设置 owner、01d 版 本 和 
new 版 本 值 。 假 设 B 是 这 个 对 象 先前 的 拥有 者 。 

1. 如 果 B 已 经 COMMITTED ， 那 么 new 版 本 就 是 当前 的 版 本 。4 将 它 自己 作为 对 象 的 当前 拥有 
者 ， 将 01d 版 本 设置 为 先前 的 new 版 本 ， 将 new 版 本 设置 为 先前 new 版 本 的 一 个 拷贝 (如果 调用 
是 一 个 setter) ， 或 者 设置 为 new 版 本 本 身 (如 果 调 用 是 一 个 getter)。 

2. 对 称 地 ， 如 果 B 已 经 ABORTED， 那 么 01d 版 本 就 是 当前 的 版 本 。4 将 它 自己 作为 该 对 象 的 
当前 拥有 者 ， 将 0o1d 版 本 设 为 先前 的 01d 版 本 ,将 new 版 本 设置 为 先前 01d 版 本 的 一 个 拷贝 (如 
果 调 用 是 一 个 setter ) ， 或 者 设 为 01d 版 本 本 身 (如 果 调 用 是 一 个 getter ) 。 

3. 如 果 B 是 ACTIVE 的 ， 那 么 A 和 B 发 生 冲 突 ，A4 向 争 用 管理 器 询问 是 终止 B 还 是 自己 暂停 以 
给 8 完成 的 机 会 。 若 一 个 事务 要 终止 另 一 个 事务 ， 它 可 通过 成 功 地 调用 compareAndSet( ) 来 把 
要 被 终止 事务 的 状态 改 为 ABORTED。 

我 们 把 对 这 个 算法 进行 扩展 以 允许 多 个 并 发 读者 的 问题 留 给 读者 。 

打开 对 象 之 后 ，getter 将 版 本 的 域 读 入 一 个 局 部 变量 。 在 返回 该 值 之 前 ， 调 用 validate( ) 
检查 调用 者 事务 是 否 设 有 被 中 止 。 如 果 一 切 正常 ， 则 将 域 值 返回 给 调用 者 (setter 的 工作 方式 
与 此 相似 ) 。 

当 4 提 交 时 ， 它 调用 compareAndSet() 将 它 的 状态 改 为 COMMITTED。 如 果 成 功 ， 则 提交 完 
成 。 下 一 个 要 访问 4 所 拥有 对 象 的 事务 将 会 观察 到 4 已 经 提交 ， 并 将 对 象 的 new 版 本 (由 A 设置 
的 ) 看 作 是 当前 的 版 本 。 如 果 失 败 ， 则 已 被 另 一 个 事务 终止 。 下 一 个 要 访问 被 4 所 更 新 对 象 的 


D 
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事务 将 观察 到 A 已 终止 ， 并 将 对 象 的 01d 版 本 ( 先 于 4 的 版 本 ) 作为 当前 的 。 图 18-21 给 出 了 一 
B| “个 执行 实例 。 
原子 内 存 


(对 象 ) old new writer 






线程 4 的 
本 地 事务 


顺序 对 象 ”顺序 对 象 











线程 8 的 
本 地 事务 


图 18-21 Free0bject 类 : 无 干扰 的 原子 对 象 实现 。 线 程 4 已 经 完成 了 对 一 个 对 象 的 写 ， 正在 
选择 另 一 个 最 后 一 次 是 被 线程 ?所 写 对 象 的 拷贝 。 它 准备 一 个 新 的 定位 器 ， 该 定位 器 


处 于 活动 状态 的 拥有 者 B， 那 么 4 终止 B。 然 后 ， 4 将 域 值 读 入 一 个 局 部 变量 中 。 然 而 ， 在 
getter 将 这 个 值 返 回 给 应 用 之 前 ， 它 调用 va1idate( ) 来 验证 这 个 值 是 一 致 的 。 如 果 另 一 个 事 
务 C 替 代 4 成 为 任意 对 象 的 拥有 者 ， 那 么 C 终 止 4， 且 4 的 验证 失败 。 由 此 可 知 ， 如 果 setter 返 
回 一 个 值 ， 则 这 个 值 必 是 一 致 的 。 

下 面 说 明 为 什么 事务 是 可 串 行 化 的 。 如 果 一 个 事务 4 成 功 地 将 它 的 状态 从 ACTIVE 改 为 
COMMITTED， 那 么 它 必定 仍 是 它 访问 的 所 有 对 象 的 拥有 者 ， 因为 任何 夺 走 4 的 拥有 权 的 事务 必 

36] 定 已 先 终 止 了 4。 由 此 可 知 ， 自 4 访问 了 对 象 后 ， 它 所 读 或 写 的 对 象 都 没有 发 生变 化 ， 所 以 4 

在 有 效 地 更 新 它 所 访问 对 象 的 快照 。 

详细 说 明 

打开 一 个 对 象 要 求 原子 地 改变 多 个 域 ， 包 括 修改 owner、 01d 版 本 域 和 new 版 本 域 。 在 不 用 
锁 的 情形 下 ， 实现 这 种 对 多 个 域 进行 原子 修改 的 唯一 办 法 就 是 引入 一 个 间接 的 中 间 层 。 如 
图 18-22 所 示 ， Free0bject 类 具有 一 个 start 域 ， 它 是 一 个 指向 Locator 对 象 的 Atomic- 
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Reference (38347), 保存 着 该 对 象 的 当前 事务 、 老 版 本 和 新 版 本 (第 5~7 行 )。 








1 public class FreeObject<T extends Copyable<T>> 

2 extends TinyTM.AtomicObject<T> { 
3 AtomicReference<Locator> start; 

4 private class Locator { 

5 Transaction owner; 

6 T oldVersion; 

7 T newVersion; 

8 
9 
0 
1 








18-22 Free0bject 类 : 内 部 Locator 类 


回忆 一 下 ， 一 个 对 象 的 域 是 按照 下 面 的 步骤 进行 修改 的 : (1) 调用 openWrite( ) 以 获得 一 
个 对 象 的 版 本 ，(2) 尝试 修改 这 个 版 本 ，(3) 调用 validate( ) 以 确保 该 版 本 仍 是 正确 的 。 
图 18-23 描 述 了 Free0bject 类 的 openWrite( ) 方 法 。 首 先 ， 线 程 检查 它 自己 的 事务 状态 (第 14 
行 )。 如 果 状 态 是 已 提交 的 ， 则 该 线程 没有 在 事务 中 运行 ， 直 接 修改 对 象 (第 15 行 )。 如 果 状 














| 12 public T openWrite() { 
13 Transaction me = Transaction.getLocal(); 
14 switch (me.getStatus()) { 
15 case COMMITTED: return openSequential(); 
16 case ABORTED: throw new AbortedException(); 
17 case ACTIVE: 
18 Locator locator = start.get(); 
19 if (locator.owner == me) 
20 return locator.newVersion; 
21 Locator newLocator = new Locator(); 
22 while (!Thread.currentThread().isInterrupted()) { 
23 Locator oldLocator = start.get(); 
24 Transaction owner = oldLocator.owner; 
25 switch (owner.getStatus()) { 
26 case COMMITTED: 
27 newLocator.oldVersion = oldLocator.newVersion; 
28 break; 
29 case ABORTED: 
30 newLocator.oldVersion = oldLocator.oldVersion; 
31 break; 
32 case ACTIVE: 
33 ContentionManager.getLocal().resolve(me, owner); 
34 continue; 
35 } 
36 try { 
37 newLocator.newVersion = (T) class.newInstance(); 
38 } catch (Exception ex) {throw new PanicException(ex);} 
39 newLocator.oldVersion.copyTo(newLocator.newVersion) ;; 
40 if (start.compareAndSet(oldLocator, newLocator)) 
41 return newLocator.newVersion; 
42 
43 me.abort(); 
44 throw new AbortedException(); 
45 default: throw new PanicException("Unexpected transaction state"); 
46 } 
47 } | 











图 18-23 Free0bject 类 : openWrite() 方 法 
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态 是 终止 的 ， 那 么 该 线程 立刻 抛 出 一 个 AbortedException 异 常 (81617). Ha, MRS 
是 活动 的 ， 那 么 线程 读 取 当 前 的 定位 器 并 检查 它 是 否 已 为 写 打开 了 这 个 对 象 ， 如 果 是 ， 则 六 
即 返 回 (第 19 行 )。 否 则 ， 它 进入 循环 (第 22 行 )， 不 断 地 初始 化 并 尝试 设置 一 个 新 的 定位 器 。 
为 了 确定 对 象 的 当前 值 ， 线 程 检 查 最 后 一 个 写 该 对 象 的 事务 的 状态 (第 25 行 )， 如 果 拥 有 者 已 提 
交 ， 就 使 用 新 版 本 (第 27 行 )， 如 果 拥 有 者 是 ABORTED (第 30 行 ) 则 使 用 老 版 本 。 如 果 拥 有 者 仍 
然 是 活动 的 (第 30 行 )， 则 产生 了 同步 冲突 ， 线 程 调用 和 争 用 管理 器 模块 来 解决 这 个 冲突 。 在 没有 
冲突 的 情形 下 ， 线 程 创 建 并 初始 化 一 个 新 的 版 本 (第 37~39 行 )。 最 后 ， 线 程 调用 
compareAndSet( ) 来 用 新 版 本 取代 老 版 本 ， 若 成 功 则 返回 ， 若 失败 则 重新 尝试 。 

除了 不 需要 产生 一 个 老 版 本 的 拷贝 以 外 ，openRead( ) 方 法 (没有 给 出 ) 的 工作 方式 与 此 
相 类 似 。 

Free0bject 类 的 validate() 方 法 (没有 给 出 ) 简单 地 确认 当前 线程 的 事务 状态 是 否 是 
ACTIVE, 


18.3.8 基于 锁 的 原子 对 象 


这 种 无 干扰 的 实现 效率 并 不 是 很 高 ， 因 为 写 操作 会 持续 地 分 配 定位 器 和 版 本 ， 而 读 操作 
必须 穿 过 两 个 间接 层 (两 个 引用 ) 才能 到 达 实 际 要 读 的 数据 。 在 本 小 节 中 ， 我 们 给 出 一 种 更 
高 效 的 原子 对 象 实现 ， 它 使 用 短 临 界 区 来 消除 定位 器 并 去 掉 一 个 间接 层 。 

一 个 基于 锁 的 STM 在 读 或 写 时 可 能 会 锁定 所 有 对 象 。 然 而 ， 大 部 分 应 用 都 遵循 80/20 规 则 : 
约 80% 的 访问 是 读 操作 ，20% 的 访问 是 写 操作 。 对 一 个 对 象 进行 上 锁 的 代价 是 很 高 的 ， 因 为 它 
要 调用 compareAndSet( )， 这 在 读 / 写 冲突 不 频繁 时 显得 过 于 浪费 。 读 操作 时 锁定 对 象 真 的 有 
必要 码 ? 答案 是 否定 的 。 

概述 

基于 锁 的 原子 对 象 实现 采用 乐观 的 方式 读 对 象 ， 随 后 检查 冲突 。 它 使 用 一 个 全 局 的 版 本 
时 钟 (version clock) 和 一 个 由 所 有 事务 共享 的 计数 器 进行 冲突 检查 ， 每 当 一 个 事务 提交 时 都 
要 递增 这 个 计数 器 。 当 一 个 事务 启动 时 ， 它 将 当前 的 版 本 时 钟 值 记录 到 一 个 线程 本 地 的 读 时 
HRH., 

每 个 对 象 都 有 下 面 一 些 域 : ATT] AR (stamp) 域 ， 是 最 后 一 个 对 该 对 象 写 的 事务 的 读 时 间 
Bi; 版 本 (version) 域 ， 是 顺序 对 象 的 一 个 实例 ， 锁 (lock) 域 ， 是 一 个 锁 。 正 如 前 面 所 说 
的 ， 该 顺序 类 型 必须 实现 Copyable 接 口 ， 并 提供 一 个 无 参 的 构造 函数 。 

事务 虚拟 地 执行 一 系列 访问 对 象 的 读 写 操作 。 所 谓 “ 虚 拟 地 ”， 是 指 没 有 对 象 被 真正 地 修 
改 。 相 反 ， 事 务 使 用 一 个 线程 本 地 的 读 集 来 记录 它 所 读 的 对 象 ， 使 用 一 个 线程 本 地 的 写 集 来 
记录 它 要 修改 的 对 象 以 及 它们 暂 定 的 新 版 本 。 

当 事 务 调用 getter 返 回 一 个 域 值 时 ，Lock0bject 的 openRead( ) 方 法 首先 检查 该 对 象 是 否 
已 经 出 现在 写 集中 。 如 果 是 ， 则 返回 暂 定 的 新 版 本 。 否 则 ， 它 检查 对 象 是 否 被 上 锁 。 如 果 是 ， 
则 存在 一 个 同步 冲突 ， 该 事务 终止 。 如 果 没 有 锁定 ，openRead( ) 方 法 将 该 对 象 添 加 到 读 集中 
并 返回 它 的 版 本 。 

openWrite( ) 方 法 与 上 述 方法 相 类 似 。 如 果 对 象 不 在 写 集 中 , 则 创建 一 个 新 的 暂 定 的 版 本 ， 
将 这 个 暂 定 的 版 本 添加 到 写 集 中 ， 并 返回 这 个 版 本 。 

validate() 方 法 检查 对 象 的 时 间 疏 是 否 不 大 于 事务 的 读 时 间 惟 。 如 果 是 ， 则 存在 冲突 ， 
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该 事务 终止 。 否 则 ， 这 个 getter 返 回 在 前 一 步 读 到 的 值 。 

要 注意 Lock0bject 的 validate( ) 方 法 只 能 保证 值 是 一 致 的 ， 并 不 能 保证 调用 者 不 是 僵尸 
事务 。 相 反 ， 事 务必 须 按照 下 面 的 步骤 来 提交 。 

1. 按照 任意 的 次 序 ， 锁 定 它 的 写 集中 的 每 个 对 象 ， 并 采用 定时 器 来 避免 死 锁 。 

2. 使 用 compareAndSet( ) 来 递增 全 局 的 版 本 时 钟 ， 将 结果 存放 在 线程 本 地 的 写 时 间 蕉 中。 
如 果 该 事务 提交 ， 则 这 个 时 间 点 就 是 它 被 串 行 化 的 地 方 。 

3. 事务 检查 它 的 读 集中 的 每 个 对 象 没有 被 其 他 线程 锁定 ， 且 每 个 对 象 的 时 间 惟 不 大 于 事 
务 的 读 时 间 惟 。 如 果 确 认 成 功 ， 事 务 则 提交 。 (在 事务 的 写 时 间 惟 比 它 的 读 时 间 惟 大 1 的 情形 
下 ， 不 需要 确认 读 集 ， 因 为 没有 发 生 并 发 的 修改 。) 

4. 事务 修改 它 的 写 集中 每 个 对 象 的 时 间 惟 域 。 一 旦 时 间 惟 被 修改 ， 事 务 就 释放 它 的 锁 。 

如 果 这 些 测试 中 的 任何 一 个 失败 ， 事 务 则 终止 ， 放 弃 它 的 读 集 和 写 集 并 释放 它 所 持 有 的 
所 有 锁 。 

图 18-24 描 述 了 一 个 执行 实例 。 






















全 局 版 全 局 版 
本 时 钟 本 时 钟 
原子 内 存 D 原子 内 存 98 121 
(对 象 ) (对 象 ) 
B 的 本 地 a A 的 本 地 
标记 标记 





读 标 记 

















写 标 记 











fi 标记 锁 值 标记 锁 


a) 中 止 b) 提交 


图 18-24 Lock0bject 类 : 基于 锁 的 事务 内 存 实现 。 在 a 中 ， 线 程 4 开 始 它 的 事务 ， 设 置 它 的 读 
时 间 惟 rs 为 97， 即 全 局 版 本 时 钟 值 。 在 4 开始 读 或 写 对 象 之 前 ， 线 程 8 提 交 : 它 增加 
全 局 版 本 时 钟 为 98 ， 将 98 记 录 到 它 的 本 地 写 时 间 戳 域 ws 中 ， 并 在 成 功 地 确认 后 用 时 
间 戳 98 写 新 值 c'。( 没 有 给 出 B 对 对 象 锁 的 请 求 和 释放 。) 当 4 读 时 间 惟 为 98 的 对 象 时 ， 
它 检 测 到 线程 3 的 修改 ， 因 为 它 的 读 时 间 惟 小 于 98， 所 以 4 终止 。 在 b 中 ，4 在 B 完 成 
之 后 开始 它 的 事务 ， 读 到 读 时 间 戳 值 为 98， 且 在 读 c 时 并 不 终止 。4 创 建 读 - 写 集合 ， 
递增 全 局 版 本 时 钟 。( 注 意 ， 其 他 线程 已 将 时 钟 增加 为 120。) 它 锁定 它 要 修改 的 对 象 ， 
并 成 功 地 确认 。 然 后 ， 基 于 写 时 间 戳 修改 这 些 对 象 的 值 和 时 间 避 。 在 该 图 中 ， 我 们 
没有 给 出 写 对 象 锁 的 最 后 的 释放 


为 什么 能 达到 效果 

事务 按照 它们 递增 全 局 版 本 时 钟 的 次 序 是 可 串 行 化 的 。 下 面 是 每 个 事务 都 能 观察 到 一 至 
状态 的 原因 。 如 果 一 个 读 时 间 惟 为 7 的 事务 4 观察 到 对 象 没有 被 锁定 ， 那 么 这 个 版 本 将 具有 不 
超过 7 的 最 近 的 时 间 惟 。 任 何以 后 修改 对 象 的 事务 将 锁定 这 个 对 象 ， 增 加 全 局 版 本 时 钟 值 ， 并 
将 这 个 对 象 的 时 间 戳 设置 为 新 版 本 的 时 钟 ， 该 值 是 超过 7 的 。 如 果 4 观 察 到 这 个 对 象 没 有 被 锁 
定 ， 那 么 4 不 会 丢失 时 间 蕉 小 于 等 于 7 的 修改 。4 还 要 通过 在 读 取 域 之 后 检查 时 间 改 来 确认 这 个 
对 象 的 时 间 戳 不 超过 7。 


m 
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下 面 是 事务 可 串 行 化 的 原因 。 我 们 认为 4 先 读 x 然 后 再 提交 ， 这 时 ，x 可 能 在 4 第 一 次 读 x 和 
增加 全 局 版 本 时 钟 这 段 时 间 内 没有 被 改变 。 正 如 前 面 提 到 的 ， 如 果 具 有 读 时 间 戳 "的 4 在 时 刻 ; 
观察 到 * 没 有 被 锁定 ， 那 么 任何 随后 对 x 的 修改 将 会 给 zx 一 个 比 r 大 的 时 间 贰 。 如 果 事 务 B 在 4 之 
前 提交 ， 并 修改 了 一 个 被 4 读 的 对 象 ， 那 么 ，4 的 确认 程序 或 者 观察 到 x 被 锁定， 或 者 观察 到 
x 的 时 间 惟 大 于 r， 在 任何 一 种 情形 下 ， 都 将 会 终止。 

详细 说 明 

在 描述 算法 之 前 , 首先 描述 基本 的 数据 结构 。 图 18-25 给 出 锁 实现 中 所 采用 的 WriteSet 类 。 
该 类 实质 上 是 从 对 象 到 版 本 的 映射 把 事务 所 写 的 每 个 对 象 发 送 给 它 的 暂 定 版 本 。 除 了 get() 
和 set() 方 法 以 外 ， 该 类 还 包括 对 表 中 每 个 对 象 上 锁 和 开锁 的 方法 。ReadSet 类 (没有 给 出 ) 
只 是 对 象 的 一 个 集合 。 


1 public class WriteSet { 
2 static ThreadLocal<Map<LockObject<?>, Object>> map 


3 = new ThreadLocal<Map<LockObject<?>,Object>>() { 

4 protected synchronized Map<LockObject<?>, Object> initialValue() { 
5 return new HashMap(); 

6 } 

7 }i 

8 public static Object get(LockObject<?> x) { 

9 return map.get().get(x); 

10 





11 public static void put(LockObject<?> x, Object y) { 
12 map.get().put(x, y); 
} 





13 

14 public static boolean tryLock(long timeout, TimeUnit timeUnit) { 
15 Stack<LockObject<?>> stack = new Stack<LockObject<?>>(); 
16 for (LockObject<?> x : map.get().keySet()) { 

17 if (!x.tryLock(timeout, timeUnit)) { 

18 for (LockObject<?> y : stack) { 

19 y.unlock({); 

20 } 

21 throw new AbortedException(); 

22 } 

23 } 

24 return true; 

25 } 

26 public static void unlock() { 

27 for (LockObject<?> x : map.get().keySet()) { 

28 x.unlock(); 

29 

30 } 

31 

32 } 








图 18-25 Lock0bject 类 ， 内 部 WriteSet 类 


图 18-26 描 述 了 版 本 时 钟 。 所 有 域 和 方法 都 是 静态 的 。 该 类 管理 着 一 个 全 局 版 本 计数 器 和 
一 个 线程 本 地 的 读 时 间 戳 集 。getWriteStamp( ) 方 法 返回 当前 的 全 局 版 本 ， 而 setWriteStamp() 
则 将 它 增 加 1。getReadStamp( ) 方 法 返回 调用 者 的 线程 本 地 的 读 时 间 戳 ， 而 setReadStamp() 
将 线程 本 地 的 读 时 间 惟 设置 为 当前 的 全 局 时 钟 值 。 

LockObject3é (图 18-27) 有 三 个 域 : 对 象 的 锁 、 它 的 读 时 间 惟 以 及 对 象 的 实际 数据 。 图 
18-28 显 示 如 何 为 读 操作 来 打开 对 象 。 如 果 对 象 的 拷贝 不 在 事务 的 写 集 中 〈 第 13 行 )， 那 么 它 将 
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该 对 象 放 入 事务 的 读 集 。 然 而 ， 如 果 该 对 象 被 锁定 ， 说 明 它 正 处 于 并 发 事务 进行 更 新 的 过 程 中 ， 
那么 , 终止 读者 (第 15 行 )。 如 果 该 对 象 在 写 集中 有 一 个 暂 定 版 本 ， 则 返回 这 个 版 本 (第 19 行 )。 





public class VersionClock { 
// global clock read and advanced by all 


static AtomicLong global = new AtomicLong(); 
// thread-local cached copy of global clock 
static ThreadLocal<Long> local = new ThreadLocal<Long>() { 
protected Long initialValue() { 
return OL; 
} 
J; 
public static void setReadStamp() { 
1ocal .set(global.get()); 
} 
public static long getReadStamp() { 
return local.get(); 
} 
public static void setWriteStamp() { 
local.set (global.incrementAndGet()); 
} 
public static long getWriteStamp() { 
return local.get(); 
} 
} 











图 18-26 VersionClock2k 

















1 public class Lock0bject<T extends Copyable<T>> extends AtomicObject<T> { 
2 ReentrantLock lock; 
3 volatile long stamp; 
4 T version; 
5 
441 
l 
图 18-27 Lock0object 类 : i 442 
6 public T openRead() { 
7 ReadSet readSet = ReadSet.getLocal(); 
8 switch (Transaction.getLocal().getStatus()) { 
9 case COMMITTED: 
10 return version; 
ll case ACTIVE: 
12 WriteSet writeSet = WriteSet.getLocal(); 
13 if (writeSet.get(this) == null) { 
14 if (lock.isLocked()) { 
15 throw new AbortedException(); 
16 } 
17 readSet.add(this); 
18 return version; 
19 } else { 
20 T scratch = (T)writeSet.get (this); 
21 return scratch; 
22 } 
23 case ABORTED: 
24 throw new AbortedException(); 
25 default: 
26 throw new PanicException("unexpected transaction state"); 
27 } 
28 } 








18-28 LockObject3é; openRead( ) 方 法 
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图 18-29 给 出 Lock0bject 类 的 openWrite( ) 方 法 。 如 果 调 用 发 生 在 事务 的 外 面 (第 31 行 )， 
则 简单 地 返回 对 象 的 当前 版 本 。 如 果 事 务 是 活动 的 (第 33 行 )， 则 测试 对 象 是 否 在 它 的 写 集中 
(第 35 行 )。 如 果 是 ， 则 返回 这 个 版 本 。 如 果 不 是 ， 那么 在 对 象 被 锁定 时 终止 调用 者 (第 37 行 )。 
人 否则， 它 使 用 该 类 型 的 无 参 构造 函数 创建 一 个 新 的 暂 定 版 本 (第 39 行 )， 通过 复制 老 版 本 进行 
初始 化 〈 第 40 行 )， 并 将 它 放 入 写 集中 〈 第 41 行 )， 然 后 返回 这 个 暂 定 版 本 。 


public T openWrite() { 
switch (Transaction.getLocal().getStatus()) { 
case COMMITTED: 
return version; 
case ACTIVE: 
WriteSet writeSet = WriteSet.getLocal(); 
T scratch = (T) writeSet.get(this); 
if (scratch == null) { 
if (lock. isLocked()) 
throw new AbortedException(); 
scratch = myClass.newInstance(); 
version.copyTo(scratch) ; 
writeSet.put(this, scratch); 
} 
return scratch; 
case ABORTED: 
throw new AbortedException{); 
default: 
throw new PanicException("unexpected transaction state"); 
} 
} 

















图 18-29 LockObject2E: openWrite( ) 方 法 


validate( ) 方 法 (图 18-30) 仅仅 检查 对 象 的 读 时 间 改 是 否 小 于 等 于 事务 的 读 时 间 玲 
(第 56 行 )。 








50 public boolean validate() { 

51 Transaction.Status status = Transaction.getLocal().getStatus(); 
52 switch (status) { 

53 case COMMITTED: 

54 return true; 

55 case ACTIVE: 

56 return stamp <= VersionClock.getReadStamp(); ; 
57 case ABORTED: 

58 return false; 

59 } 

60 } 

61 } 








118-30 Lock0bject 类 : validate( ) 方 法 


我 们 现在 看 一 看 事务 是 如 何 提交 的 。TinyTM 人 允许 用 户 注册 在 确认 、 提 交 和 终止 时 执行 的 
处 理 程序 。 图 18-31 描 述 了 锁定 TM 是 如 何 确认 事务 的 。 它 先 锁定 写 集中 的 每 个 对 象 (第 66 行 )。 
如 果 这 个 锁 请 求 超时 ， 则 可 能 存在 死 锁 ， 所 以 该 方法 返回 名 lse， 意 味 着 事务 不 能 提交 。 然 后 ， 
再 确认 读 集 。 对 每 个 对 象 ， 都 要 检查 它 没有 被 其 他 事务 锁定 (第 70 行 ) 且 该 对 象 的 时 间 惟 没 
有 超过 事务 的 读 时 间 惟 (第 72 行 )。 

如 果 确 认 成 功 ， 该 事务 现在 可 以 提交 。 图 18-32 描 述 了 onCommit( ) 处 理 程序 。 它 增加 了 版 
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本 时 钟 值 (第 83 行 )， 将 暂 定 版 本 从 写 集 复制 到 原来 的 对 象 (第 86 一 89 行 )， 并 将 每 个 对 象 的 
时 间 惟 设置 为 最 新 增加 的 版 本 时 钟 值 (第 90 行 )。 最 后 ， 它 释放 这 些 锁 ， 并 清除 线程 本 地 的 读 / 
写 集 ， 为 下 一 个 事务 做 好 准备 。 








| 62 public class OnValidate implements Callable<Boolean>{ 
63 public Boolean call() throws Exception { 
64 WriteSet writeSet = WriteSet.getLocal(); 
65 ReadSet readSet = ReadSet.getLocal(); 
66 if (IwriteSet.tryLock(TIMEOUT, TimeUnit.MILLISECONDS)) { 
67 return false; 
68 } 
69 for (LockObject x : readSet) { 
70 if (x.lock.isLocked() && !x.lock.isHeldByCurrentThread() ) 
71 return false; 
72 if (stamp > VersionClock.getReadStamp()) { 
73 return false; 
74 } 
75 } 
76 return true; 
77 
78 } 








图 18-31 LockObject%: onValidate( ) 处 理 程 序 











79 public class OnCommit implements Runnable { 

80 public void run() { 

81 WriteSet writeSet = WriteSet.getLocal(); 

82 ReadSet readSet = ReadSet.getLocal{); 

83 VersionClock.setWriteStamp(); 

84 long writeVersion = VersionClock.getWriteStamp(); 

85 for (Map.Entry<LockObject<?>, Object> entry : writeSet) { 
86 LockObject<?> key = (LockObject<?>) entry.getKey(); 
87 Copyable destin = (Copyable) key.openRead() ; 

88 Copyable source = (Copyable) entry.getValue(); 

89 source. copyTo(destin) ; 

90 key.stamp = writeVersion; 

91 } 

92 writeSet.unlock(); 

93 writeSet.clear(); 

94 readSet.clear(); 

95 } 

96 } 





图 18-32 LockObject2é; onCommit 处 理 程序 


到 现在 为 止 我 们 学 到 了 什么 ? 我 们 已 经 看 到 单一 的 事务 内 存 框架 是 如 何 支 持 两 种 本 质 上 
不 同 的 同步 机 制 的 : 一 种 是 无 干扰 的 ， 一 种 是 使 用 短期 的 上 锁 。 每 种 实现 本 身 只 提供 了 较 弱 
的 演进 保证 ， 所 以 我 们 要 靠 一 个 独立 的 争 用 管理 器 来 确保 演进 。 


18.4 硬 事务 内 存 


现在 介绍 如 何 通过 标准 的 硬件 系统 结构 来 直接 在 硬件 中 支持 小 的 短期 事务 。 这 里 给 出 的 
HTM (Hardware Transaction Memory) 设计 是 一 种 高 层 的 简化 形式 ， 但 它 涵盖 了 HTM 设 计 的 
最 主要 方面 。 不 熟悉 缓存 一 致 性 协议 的 读者 可 以 参看 附录 B。 

HTM 中 的 基本 思想 就 是 现代 缓存 一 致 性 协议 已 经 做 了 要 用 来 实现 事务 的 大 部 分 工作 。 它 
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们 已 能 够 检测 和 解决 写 者 之 间 以 及 读者 和 写 者 之 间 的 同步 冲突 ， 并 能 缓存 暂 定 的 改变 而 不 是 
直接 更 新 内 存 。 我 们 仅 需 在 此 基础 上 改变 一 部 分 细节 就 可 以 使 用 。 


18.4.1 缓存 一 致 性 


在 大 多 数 现代 多 处 理 器 中 ， 每 个 处 理 器 都 有 一 个 附带 的 高 速 缓存 (cache) ， 这 是 一 种 小 
容量 的 高 速 存储 器 ， 用 于 避免 与 大 容量 慢 速 主 存 的 通信 。 每 个 缓存 项 都 包含 一 组 称 为 行 的 相 
邻 字 ， 并 具有 一 种 从 地 址 到 行 的 映射 机 制 。 考 虑 一 种 简单 的 系统 结构 ， 其 中 处 理 器 和 存储 器 
通过 一 个 共享 的 被 称 为 总 线 的 广播 媒介 进行 通信 。 每 个 缓存 行 有 一 个 标记 ， 用 于 标记 状态 信 
息 。 我 们 从 标准 MESI 协 议 开 始 ， 协 议 中 每 个 缓存 行 用 下 列 状 态 之 一 进行 标记 : 

e Modified: 缓存 中 的 行 已 经 被 修改 ， 且 最 终 必 须 被 写 回 内 存 。 没 有 别 的 处 理 器 缓存 了 这 

个 行 。 

“Exclusive: 此 行 还 没有 被 修改 ,但 是 没有 其 他 处 理 器 缓存 了 这 个 行 。( 一 个 行 在 被 修改 

之 前 通常 以 互 斥 的 方式 加 载 。) 

e Shared: 此 行 还 没有 被 修改 ， 且 其 他 处 理 器 可 能 已 缓存 了 此 行 。 

e Invalid: 此 行 没 有 包含 有 意义 的 数据 。 

缓存 一 致 性 协议 在 单个 的 加 载 和 存储 操作 之 间 检 测 同步 冲突 ， 确 保 不 同 的 处 理 器 对 共享 
存储 器 的 状态 达成 一 致 。 当 一 个 处 理 器 加 载 或 存储 内 存 地 址 < 时 ， 它 在 总 线 上 广播 请 求 ， 其 他 
处 理 器 和 存储 器 则 进行 监听 CEL BR BEAR). 

对 缓存 一 致 性 协议 的 完整 描述 非常 复杂 ， 下 面 是 我 们 所 感 兴趣 的 一 些 主要 方面 。 

© 当 处理 器 请 求 以 互 斥 方式 加 载 一 个 行 时， 任何 其 他 处 理 器 应 使 这 个 行 的 副本 失效 。 任 何 

具有 这 个 行 修改 副本 的 处 理 器 必须 在 加 载 完成 之 前 将 这 个 行 写 回 存储 器 。 

* 当 处 理 器 请 求 以 共享 方式 加 载 一 个 行 到 自己 的 缓存 中 时 ， 任 何 具有 互 斥 副 本 的 处 理 器 必 

须 将 其 状态 改 为 共享 ， 且 任何 具有 修改 副本 的 处 理 器 必须 在 加 载 完成 之 前 将 这 个 行 写 回 

存储 器 。 

“如果 缓 存 满 了 ， 则 有 必要 收回 一 行 。 如 果 这 个 行 是 共享 的 或 互 尺 的 ， 则 可 以 简单 地 抛弃 ， 

但 如 果 是 修改 的 ， 则 必须 写 回 存储 器 。 

现在 我 们 描述 如 何 修 改 这 个 协议 以 支持 事务 。 


18.4.2 事务 缓存 一 致 性 


我 们 除了 给 每 个 缓存 行 的 标记 增加 一 个 事务 位 以 外 ， 仍 保持 和 以 前 的 MESI 协 议 一 样 。 通 
常 ， 这 个 事务 位 是 未 设置 的 。 当 一 个 代表 事务 的 值 被 放 入 缓存 中 时 ， 设 置 这 个 位 ， 我 们 称 这 
个 项 是 事务 的 。 只 需要 确保 修改 的 事务 行 不 能 被 写 回 到 存储 器 中 ， 且 使 事务 行 无 效 就 可 以 终 
止 这 个 事务 。 

下 面 是 更 详细 的 规则 。 

* 如果 MESI 协 议 使 一 个 事务 项 无 效 ， 那 么 该 事务 被 终止 。 这 样 的 无 效 表 示 一 个 同步 冲突 ， 

或 者 在 两 个 存储 之 间或 者 在 加 载 和 存储 之 间 。 

* 如果 一 个 修改 的 事务 行 失效 或 被 收回 ， 那 么 它 的 值 将 被 抛弃 而 不 是 写 回 内 存 。 因 为 任何 

事务 写 的 值 都 是 暂 定 的 ， 当 事务 为 活动 时 ， 我 们 不 能 让 它 “ 逃 跑 ”。 相 反 ， 必 须 终止 这 

个 事务 。 
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。 如 果 缓 存 收回 一 个 事务 行 ， 则 必须 终止 这 个 事务 ， 因 为 一 旦 这 个 行 不 再 在 该 缓存 中 ， 则 

缓存 一 致 性 协议 就 无 法 检测 到 同步 冲突 。 

如 果 一 个 事务 完成 ， 它 的 所 有 事务 行 都 没有 失效 或 收回 ， 那 么 它 就 能 提交 ， 并 清除 它 的 
缓存 行 中 的 事务 位 。 如 果 一 个 失效 或 收回 使 得 该 事务 终止 ， 则 它 的 事务 缓存 行 也 失效 。 这 些 
规则 能 确保 提交 和 终止 都 是 处 理 器 局 部 的 操作 步 。 


18.4.3 改进 


尽管 这 种 模式 在 硬件 中 正确 地 实现 了 事务 内 存 ， 但 它 还 是 存在 着 一 些 限制 和 缺陷 。 一 种 
几乎 对 所 有 HTM 方 案 都 存在 的 制约 ， 就 是 事务 的 大 小 受 缓存 大 小 的 限制 。 当 一 个 线程 不 再 调 
度 时 ， 大 多 数 操作 系统 都 会 清除 缓存 ， 所 以 事务 的 持续 时 间 受 平台 调度 量 的 长 度 限 制 。 由 此 
可 知 ，HTM 最 适合 于 短小 的 事务 。 需 要 长 事务 的 应 用 则 应 使 用 STM ， 或 者 结合 使 用 HTM 和 
STM。 然 而 ， 当 事务 终止 时 ， 由 硬件 返回 一 个 条 件 码 来 说 明 这 个 终止 是 由 于 同步 冲突 (事务 
应 该 重 做 ) ， 还 是 由 于 资源 耗 尽 (事务 重 做 中 不 存在 可 做 点 ) 则 是 非常 重要 的 。 

然而 ， 这 种 特殊 的 设计 有 一 些 其 他 的 缺点 。 大 多 数 缓存 都 是 直接 映射 的 ， 这 意味 着 一 个 
地 址 a 只 映射 到 一 个 缓存 行 。 任 何 访 问 两 个 被 映射 到 同一 个 缓存 行 的 内 存 地 址 的 事务 注定 会 失 
败 ， 因 为 第 二 次 的 访问 将 会 收回 第 一 次 访问 ,终止 事务 。 有 些 缓存 是 组 关联 的 ， 能 将 每 个 地 
址 映射 到 k 个 缓存 行 组 成 的 一 个 组 中 。 任 何 访问 k+1 个 地 址 (映射 到 相同 组 ) 的 事务 也 注定 要 
失败 。 几 乎 没有 缓存 是 全 关联 的 ， 能 将 每 个 地 址 映射 到 缓存 中 的 任 一 个 行 。 

存在 一 些 通过 划分 缓存 来 缓解 上 述 问 题 的 办 法 。 一 种 是 将 缓存 分 成 一 个 较 大 的 、 直 接 映 
射 的 主 缓存 和 一 个 小 的 、 全 关联 的 用 来 保存 从 主 缓存 中 溢出 项 的 牺牲 者 缓存 。 另 一 种 方法 是 
将 缓存 分 成 一 个 大 的 、 组 关联 的 非 事务 缓存 和 一 个 小 的 、 全 关联 的 用 于 事务 行 的 事务 缓存 。 
无 论 哪 种 方法 ， 都 必须 修改 缓存 一 致 性 协议 来 处 理 两 个 缓存 间 的 一 致 性 问题 。 

另 一 个 缺陷 就 是 没有 争 用 管理 器 ， 这 意味 着 事务 可 能 会 相互 饿 死 。 事 务 A 以 互 斥 方 式 加 载 
地 址 a， 然 后 事务 B 也 以 互 斥 方式 加 载 地址 4a， 从 而 终止 A。A 立 即 重新 启动 ,终止 8， 如 此 循环 。 
这 个 问题 可 以 在 一 致 性 协议 层 解决 (允许 处 理 器 拒绝 或 推迟 一 个 无 效 的 请 求 )， 也 可 以 在 软件 
层 解决 (通过 在 软件 中 让 终止 的 事务 指数 后 退 地 执行 )。 

对 于 深入 解决 这 些 问题 感 兴趣 的 读者 可 以 参考 本 章 注释 。 


18.5 本 章 注释 


Maurice Herlihy 和 Eliot Moss[67] 第 一 个 提出 了 将 硬 事务 内 存 作为 一 种 通用 的 多 处 理 器 编 
程 模型 。Nir Shavit 和 Dan Touitou[142] 提 出 了 第 一 个 软 事务 内 存 。retry 和 orE1se 构 造 则 归功 
于 Tim Harris, Simon Marlowe, Simon Peyton-Jones 和 Maurice Herlihy[54]。 先 前 和 现在 的 许 
多 文献 都 对 这 个 领域 作出 了 贡献 。Larus 和 Rajwar[97] 给 出 了 关于 技术 问题 和 文献 的 权威 综述 。 

因果 策略 的 争 用 管理 器 源 于 William Scherer 和 Michael Scott[137]， 贪 心 策略 的 争 用 管理 器 
源 于 Rachid Guerraoui, Maurice Herlihy 和 Bastian Pochon[49]。 无 干扰 的 STM 基于 Maurice 
Herlihy, Victor Luchangco、Mark Moir 和 Bill Scherer[66] 的 动态 软 事务 内 存 算法 。 基 于 锁 的 
STM 则 是 在 Dave Dice, Ori Shalev 和 Nir Shavit[32] 的 事务 性 上 锁 2 算 法 的 基础 上 实现 的 。 
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18.6 习题 


习题 211. 实现 优先 级 策略 、 贪 心 策略 和 因果 策略 的 争 用 管理 器 。 

习题 212. 不 用 事务 回 滚 ， 描 述 orE1se 的 意义 。 

习题 213. 在 TinyTM 中 ， 实 现 Free0bject 类 的 openRead( ) 方 法 。 注 意 读 取 Locator 域 的 次 序 非常 重 
要 。 讨 论 为 什么 你 的 实现 提供 了 对 象 可 串 行 化 的 读 。 

习题 214. 在 TinyTM 中 ， 设 计 一 种 减少 对 全 局 版 本 时 钟 争 用 的 方法 。 

习题 215. 扩展 Lock0bject 类 以 支持 并 发 读者 。 

习题 216. 在 TinyTM 中 ，Lock0bject 类 的 onCommit( ) 处 理 程序 首先 检查 对 象 是 否 被 其 他 事务 锁定 ， 
然后 检查 它 的 时 间 惟 是 否 小 于 等 于 事务 的 读 时 间 戳 。 
。 举 例 说 明 为 什么 必须 检查 对 象 是 否 被 锁定 。 
。 对 象 有 可 能 被 正在 提交 的 事务 锁定 吗 ? 
。 举 例 说 明 为 什么 在 检查 版 本 数 之 前 必须 检查 对 象 是 否 被 锁定 。 

习题 217. 设计 一 种 对 小 数组 (如 跳 表 中 使 用 的 数组 ) 是 最 优 的 AtomicArray<T> 实 现 。 

习题 218. 设计 一 种 对 大 数组 是 最 优 的 AtomicArray<T> 实 现 ， 在 这 样 的 数组 中 事务 可 以 访问 不 相交 
的 区 域 。 
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软件 基础 


Al 引言 


本 附录 描述 了 理解 本 书 实例 以 及 编写 并 发 程序 所 需 的 基本 程序 设计 语言 结构 。 在 大 多 数 
情况 下 ， 我 们 采用 Java 语 言 ， 但 也 可 以 用 其 他 高 级 语言 或 库 来 表达 同样 的 思想 。 在 此 ， 我 们 
回顾 理解 本 书 所 需要 的 基本 软件 概念 ， 首 先是 关于 Java 的 概念 ， 然 后 是 关于 C# 或 C 和 C++ 的 
Pthreads 库 的 一 些 其 他 的 重要 模型 。 遗 憾 的 是 ， 这 里 的 讨论 不 可 能 面面俱到 ， 如 果 有 疑问 ， 可 
以 查阅 相关 语言 或 库 的 最 新 文档 。 


A.2 Java 


Java 程 序 设 计 语 言 使 用 并 发 模型 ， 在 该 模型 中 线程 和 对 象 是 独立 的 实体 8 。 线 程 通过 调用 
对 象 的 方法 对 这 些 对 象 进行 操作 ， 并 通过 各 种 语言 和 库 的 结构 来 协调 并 发 调用 。 我 们 首先 曾 
述 本 书 所 使 用 的 各 种 Java 基 本 结构 。 


A.2.1 线程 


一 个 线程 执行 一 个 顺序 程序 。 在 Java 中 ， 线 程 通常 是 java.1ang.Thread 的 子 类 ， 它 提供 
了 一 些 方法 来 创建 线程 、 启 动 线程 、 挂 起 线程 、 等 待 线程 完成 。 
首先 ， 创 建 一 个 实现 Runnab1e 接 口 的 类 ， 该 类 的 run( ) 方 法 完成 所 有 的 工作 。 例 如 ， 下 面 
是 一 个 打印 字符 串 的 简单 线程 。 
public class HelloWorld implements Runnable { 
String message; 


public HelloWorld(String m) { 
message = m; 


} 
public void run() { 
System. out.printIn(message) ; 
} 
} 


我 们 可 以 以 一 个 Runnable 对 象 作 为 参数 来 调用 Thread 类 的 构造 函数 ， 将 Runnable 对 象 转 
变 为 线程 ， 如 下 所 示 : 


String m = "Hello World from Thread" + i; 
Thread thread = new Thread(new HelloWorld(m)); 





日 ”从 技术 上 讲 ， 线 程 也 是 对 象 。 
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Java 提 供 了 一 种 语法 上 的 快捷 方式 ， 称 为 匿名 内 部 类 ， 它 能 让 你 无 需 显 式 地 定义 
He11oWor1d 类 : 

final String m = “Hello world from thread" + i; 

thread = new Thread(new Runnable() { 

public void run() { 
System.out.printin(m) ; 

p); 

上 面 的 程序 段 创建 一 个 实现 Runnable 接 口 的 匿名 类 ， 其 run( ) 方 法 的 行为 已 描述 。 

当 线 程 创建 之 后 ， 它 必须 被 启动 : 

thread.start(); 

这 个 方法 能 使 线程 运行 。 调 用 该 方法 的 线程 将 立即 返回 。 如 果 调 用 者 打算 等 待 线程 结束 ， 则 
必须 连接 线程 : 

thread. join(); 
调用 者 会 被 阻塞 直到 线程 的 run( ) 方 法 返回 。 

图 A-1 给 出 了 能 够 初始 化 多 线程 、 启 动 多 线程 、 等 待 多 线程 完成 、 然 后 打印 一 条 消息 的 方 
法 。 该 方法 创建 一 个 线程 数组 ， 并 在 第 2~ 10 行 使 用 匿名 内 部 类 语法 进行 初始 化 。 在 循环 结束 
时 ， 则 创建 了 一 个 休 卢 线程 组 成 的 数组 。 在 第 11 ~ 13 行 ， 该 方法 启动 线程 ， 每 个 线程 执行 其 
run( ) 方 法 ， 显 示 各 自 的 消息 。 最 后 ， 在 第 14~ 16 行 ， 该 方法 等 待 每 个 线程 结束 ， 并 在 线程 完 
成 时 显示 一 条 消息 。 





public static void main(String[] args) { 
Thread[] thread = new Thread[8]; 
for (int i = 0; i < thread.length; i++) { 
final String message = "Hello world from thread" + i; 
thread[i] = new Thread(new Runnable() { 
public void run() { 
System. out.printin(message) ; 


DE 
} 


for (int i = 0; i < thread. length; i++) { 
thread[i] .start(); 


for (int i = 0; i < thread.length; i++) { 
thread[i].join(); 
} 


} 








图 A-1 初始 化 一 系列 Java 线 程 、 启 动 这 些 线程 并 等 待 它们 完成 ， 然 后 打印 一 条 信息 


A.2.2 Giz 


Java 提 供 了 一 系列 同步 访问 共享 数据 的 方法 ， 且 都 是 内 置 的 并 被 打包 在 一 起 。 在 此 ， 我 们 
描述 称 为 管 程 的 内 置 模型 ， 这 是 一 种 最 简单 、 最 常用 的 方法 。 在 第 8 章 已 对 管 程 进行 了 研究 。 
假设 由 你 来 负责 电话 中 心 的 软件 。 在 高 峰 时 段 ， 拨 入 电话 要 比 应 答 到 达 得 快 。 当 一 个 拨 
入 电话 到 达 时 ， 交 换 台 软件 应 将 它 放 在 一 个 队列 中 ， 同 时 发 出 一 个 已 被 记录 的 声明 以 使 拨号 
者 相信 你 已 意识 到 这 次 拨 入 电话 是 非常 重要 的 ， 拨 入 电话 将 按照 它们 到 达 的 次 序 来 响应 。 负 
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责 接听 拨 入 电话 的 雇员 称 为 接线 员 。 每 个 接线 员 可 以 指派 一 个 接线 员 线 程 出 队 ， 接 听 下 一 个 
拨 入 电话 。 当 接线 员 完成 了 一 个 拨 入 电话 操作 以 后 ， 则 可 以 让 下 一 个 拨 入 电话 出 队 ， 然 后 接 
听 它 。 

图 A-2 是 一 个 简单 但 是 错误 的 队列 类 。 拨 入 电话 保存 在 数组 ca11s 中 ，head 是 下 一 个 要 被 
移出 拨 入 电话 的 索引 ，tai1 则 是 数组 中 下 一 个 空闲 槽 的 索引 。 








| class CallQueue { 
2 final static int QSIZE = 100; // arbitrary size 
3 int head = 0; // next item to dequeue 
4 int tail = 0; // next empty slot 
5 Call [] calls = new Call [QSIZE]; 
6 public enq(Call x) { // called by switchboard 
7 calls[(tail++) % QSIZE] = x; 
8 } 
9 public Call deq() { // called by operators 
a return calls[(head++) % QSIZE] 
12 } 








图 A-2 错误 的 队列 类 
很 容易 看 出 ， 如 果 两 个 接线 员 试图 同时 出 队 一 个 拨 入 电话 ， 该 类 则 不 能 正确 工作 。 表 达 式 


return calls[(head++) % QSIZE] 
不 能 作为 一 个 不 可 分 割 的 原子 步骤 。 相 反 ， 编 译 器 所 生成 的 代码 可 能 会 类 似 于 如 下 形式 ， 


int tempO = head; 

head = temp0 + 1; 

int templ = (temp0 % QSIZE); 
return calls[temp1]; 


两 个 接线 员 有 可 能 同时 执行 这 些 语句 ， 它 们 同时 执行 第 1 行 、 第 2 行 ， 等 等 。 最 后 ， 两 个 
接线 员 出 队 和 接听 同一 个 拨 入 电话 ， 这 将 使 客户 感到 厌烦 。 

要 让 这 个 队列 能 够 正确 地 工作 ， 必 须 保 证 一 次 只 有 一 个 接线 员 能 够 出 队 下 一 个 拨 入 电话 ， 
这 种 特性 称 为 互 斥 。Java 提 供 了 一 种 有 用 的 内 置 机 制 来 支持 互 斥 。 每 个 对 象 具 有 一 个 锁 ( 隐 
含 的 )。 如 果 线 程 A 获 得 了 对 象 的 锁 (或 者 等 价 地 说 ， 锁 定 对 象 )， 那 么 直到 A 释放 这 个 锁 (或 
者 等 价 地 说 ， 直 到 该 对 象 被 解锁 ) 之 前 ， 其 他 线程 不 能 获得 这 个 锁 。 如 果 一 个 类 声明 一 个 方 
法 是 synchronized， 则 该 方法 被 调用 时 隐 含 地 获得 锁 ， 在 返回 时 释放 锁 。 

下 面 是 一 种 能 够 确保 enq( ) 和 deq( ) 方 法 满足 互 斥 的 方法 : 

public synchronized T deq() { 

return call[(head++) % QSIZE] 


public synchronized enq(T x) { 
call[(tail++) % QSIZE] = x; 
} 


一 且 对 同步 方法 的 调用 获得 了 对 象 的 锁 ， 对 该 对 象 其 他 同步 方法 的 调用 都 将 被 阻塞 ， 直 
到 该 锁 被 释放 为 止 。( 对 其 他 对 象 的 调用 ， 由 于 受制 于 其 他 的 锁 ， 所 以 不 会 被 阻塞 。) 被 同步 
的 方法 其 程序 体 通常 称 为 临界 区 。 

同步 要 比 互 斥 复杂 得 多 。 如 果 接 线 员 试图 让 一 个 拨 入 电话 从 队列 中 出 队 ， 但 是 此 时 队列 
中 没有 等 待 的 拨 入 电话 ， 他 应 该 怎么 办 ? 这 次 拨 入 电话 可 能 会 产生 一 个 异常 或 返回 nul1， 但 是 
接 下 来 接线 员 除 了 再 次 尝试 还 应 该 做 什么 ? 接线 员 等 待 一 个 拨 入 电话 出 现 是 合乎 情理 的 。 下 


附录 A 软件 基础 331 


面 是 对 此 问题 的 第 一 种 解决 方案 : 
public synchronized T deq() { 
while (head == tail) {}; // spin while empty 
call[ (head++) % QSIZE]; 
} 


这 种 解决 方式 不 仅 是 错误 的 ， 而 且 是 一 种 灾难 性 的 错误 。 正 在 出 队 的 线程 会 在 同步 方法 
中 等 待 ， 从 而 锁 住 其 他 所 有 的 线程 ， 包 括 试图 将 拨 入 电话 播 入 队列 的 交换 台 线程 。 这 将 产生 
死 锁 : 持 有 锁 的 出 队 线 程 在 等 待人 队 线 程 ， 而 入 队 线 程 在 等 待 出 队 线程 释放 锁 。 任 何 一 种 事 
件 永远 都 不 会 发 生 。 

从 这 个 例子 中 可 以 知道 ， 如 果 一 个 正在 执行 同步 方法 的 线程 需要 等 待 其 他 事件 发 生 ， 那 
么 在 它 等 待 时 必须 释放 该 对 象 的 锁 。 等 待 的 线程 应 该 周期 地 重新 请 求 锁 以 检测 它 是 否 可 以 继 
续 执 行 。 如 果 能 ， 则 继续 执行 ， 否 则 ， 释 放 锁 并 返回 继续 等 待 。 

在 Java 中 ， 每 个 对 象 都 提供 了 wait() 方 法 ， 该 方法 能 开锁 对 象 ， 并 挂 起 调用 者 。 当 此 线 
程 等 待 时 ， 其 他 线程 都 能 锁定 和 改变 对 象 。 随 后 ， 当 该 挂 起 的 线程 重新 执行 时 ， 在 从 wait'( ) 
返回 前 再 一 次 锁定 对 象 。 下 面 是 修改 过 但 仍然 不 正确 的 出 队 方法 9 : 


public synchronized T deq() { 
while (head == tail) {wait();} 
return call[(head++) % QSIZE]; 


此 处 ， 每 个 接线 员 线程 寻找 一 个 要 接听 的 拨 入 电话 ， 反 复 测试 队列 是 否 为 空 。 如 果 为 空 ， 则 释放 
锁 并 等 待 ， 如 果 不 为 空 ， 则 移出 并 返回 一 个 拨 入 电话 。 类 似 地 ， 入 队 线 程 则 测试 缓冲 区 是 否 已 满 。 

等 待 的 线程 什么 时 候 会 被 唤醒 ? 当 某 些 重要 的 事件 发 生 时 ， 通 知 等 待 线程 是 程序 员 的 责 
任 。notify() 方 法 唤醒 一 个 等 待 的 线程 ， 最 终 从 等 待 的 线程 集合 中 任意 选择 一 个 。 当 线程 被 
唤醒 后 ， 它 就 像 其 他 线程 一 样 竞争 锁 。 当 该 线程 重新 获得 锁 时 ， 从 它 的 wait( ) 调 用 返回 。 具 
体 哪 个 线程 被 选中 则 是 无 法 控制 的 。 相 比 之 下 ，notifyA11( ) 方 法 将 唤醒 所 有 的 等 待 线程 。 每 
当 对 象 被 开锁 后 ， 这 些 刚 被 唤醒 的 线程 之 一 将 会 重新 获得 该 锁 并 从 wait( ) 调 用 返回 。 线 程 重 
新 获得 该 锁 的 次 序 则 是 无 法 控制 的 。 

在 电话 中 心 的 例子 中 ， 有 多 个 接线 员 和 一 个 交换 台 。 假 设 交 换 台 软件 决定 按 下 面 的 方法 
来 优化 notify( )。 如 果 它 将 一 个 拨 入 电话 添加 到 空 的 队列 中 ， 则 只 通知 一 个 被 阻塞 的 出 队 线 
程 ， 因 为 只 有 一 个 拨 入 电话 可 以 被 接听 。 虽 然 这 种 优化 看 起 来 是 合理 的 ， 但 它 仍 有 缺陷 。 设 
想 接线 员 线程 4 和 8 发 现 队列 为 空 ， 它 们 被 阻塞 等 待 接听 拨 入 电话 。 交 换 台 线程 3 将 一 个 拨 入 电 
话 放 入 队列 ， 并 调用 notify( ) 唤 醒 一 个 接线 员 线 程 。 由 于 通知 是 异步 的 ， 所 以 存在 延迟 。$ 然 
后 返回 并 将 另 一 个 拨 入 电话 放 入 队列 ， 因 为 队列 已 经 有 一 个 等 待 的 拨 入 电话 ， 所 以 它 不 会 通 
知 其 他 线程 。 交 换 台 线程 的 notify() 最 终生 效 ， 唤 醒 4， 但 没有 唤醒 B， 尽 管 存在 一 个 拨 入 电 
话 可 以 让 8 接听。 这 种 问题 称 为 唤醒 丢失 : 一 个 或 多 个 等 待 线程 在 它们 所 等 待 的 条 件 已 经 变 为 
真 时 ， 并 没有 被 通知 。 更 详细 的 讨论 参见 8.2.2 节 。 


A.2.3 届 从 和 睡眠 
除了 允许 持 有 锁 的 线程 释放 锁 和 中 止 wait() 方 法 外 ， 对 于 那些 没有 持 有 锁 的 线程 ，Java 


日 ”这 个 程序 不 会 被 编 泽 ， 因 为 调用 wait( ) 会 抛 出 InterruptedException 异 常 ， 该 异常 必须 被 捕获 或 再 次 抛 
出 。 正 如 8.2.3 节 中 讨论 的 ， 我们 常常 忽略 这 样 的 异常 以 便 使 例子 更 易于 阅读 。 


A 


o0 
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还 提供 了 其 他 的 中 止 方法 。yie1d() 调 用 可 以 用 来 中 止 线程 ， 请 求 调度 运行 其 他 的 线程 。 调 度 
器 决定 是 否 暂 停 该 线程 以 及 何 时 重新 启动 它 。 如 果 没 有 其 他 线程 可 以 执行 ， 调度 将 会 忽略 
yield ) 调 用 。16.4.1 节 讲述 了 届 从 为 何 是 一 种 高 效 的 能 够 避免 活 锁 的 方法 ， Sleep(t) (其 中 t 
是 一 个 时 间 值 ) 调用 控制 调度 器 在 该 时 间 段 内 停止 该 线程 的 执行 。 调度 器 可 以 在 任何 时 候 自 
由 地 重新 启动 线程 。 


A.2.4 本 地 线程 对 象 


让 每 个 线程 拥有 自己 的 私有 变量 实例 往往 是 非常 有 用 的 。 Java 通 过 ThreadLocal<T> 类 支 
持 这 种 本 地 线程 对 象 ， 该 类 管理 着 一 个 类 型 为 T 的 对 象 集合 ， 每 个 对 象 对 应 于 一 个 线程 。 由 于 
Java 中 没有 建立 本 地 线程 变量 ， 所 以 其 接口 复杂 且 不 易于 使 用 。 但 是 ， 这 些 对 象 却 是 非常 有 
用 的 且 经 常 使 用 ， 下 面 我 们 回顾 一 下 如 何 使 用 它们 。 

ThreadLocal<T> 类 提供 了 get() 和 set() 方 法 ， 用 于 读 取 和 修改 线程 的 本 地 值 。 线 程 第 一 
次 要 获得 本 地 对 象 的 值 时 ， 则 调用 initialyalue( ) 方 法 。 我 们 不 能 直接 使 用 ThreadLocal<Ty 
类 ， 必 须 将 本 地 线程 变量 定义 为 ThreadLoca1<T> 的 子 类 ， 它 重 写 其 父 类 的 initialValue() 方 
法 以 初始 化 每 个 线程 的 对 象 。 

这 种 机 制 可 以 用 一 个 实例 加 以 说 明 。 在 我 们 的 大 多 数 算法 中 ， 都 假设 "个 并 发 线程 中 的 每 
一 个 都 有 一 个 唯一 的 从 0 到 n 一 1 之 间 的 本 地 线程 标识 。 为 了 提供 这 种 标识 ， 我 们 来 说 明 如 何 用 
一 个 静态 方法 定义 一 个 ThreadID 类 : get( ) 能 返回 调用 线程 的 标识 。 当 一 个 线程 首次 调用 
get( ) 方 法 时 ， 被 指定 下 一 个 未 使 用 的 标识 。 该 线程 随后 的 每 次 调用 都 将 返回 其 标识 。 

图 A-3 描 述 了 使 用 本 地 线程 对 象 来 实现 这 种 类 的 最 简单 方式 。 第 2 行 声 明了 一 个 整 型 域 
nextID， 用 于 保存 将 要 产生 的 下 一 个 标识 。 第 3 行 到 第 7 行 定 义 了 一 个 只 能 在 ThreadID 类 的 体 
内 访问 的 内 部 类 。 该 内 部 类 管理 着 线程 的 标识 。 ‘Exe Threadlocal<Integeron tek, HET 
initialValue( ) 方 法 以 对 当前 线程 指定 下 一 个 未 使 用 的 标识 。 


r 











1 public class ThreadID { 了 | 

2 private static volatile int nextID = 0; 

3 private static class ThreadLocalID extends ThreadLocal<Integer> { 

4 protected synchronized Integer initialValue() { 

5 return nextID++; 

6 } 

7 } 

8 private static ThreadLocalID threadID = new ThreadLocalID(); 

9 public static int get() { 

10 return threadID.get(); 

11 } 

12 public static void set(int index) { 

13 threadID.set (index); 

14 
ial | 








图 A-3 ThreadID 类 : 给 每 个 线程 一 个 唯一 的 标识 


由 于 内 部 的 ThreadLoca1ID 类 只 被 使 用 一 次 ， 因 此 对 它 取 名 没有 什么 实际 意义 (就 像 给 你 
的 感恩 火 鸡 起 名 一 样 没有 意义 )。 相 反 ， 如 前 面 讲述 ， 我 们 往往 是 使 用 匿名 类 。 
下 面 是 一 个 如 何 使 用 ThreadID 类 的 例子 : 


thread = new Thread(new Runnable() { 
public void run({) { 
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System.out.printin("Hello world from thread" + ThreadID.get()); 


})s 











编程 提示 A.2.1 在 类 型 表达 式 ThreadLocal<Integer> 中 ， 必 须 使 用 Integer 而 不 是 
int， 因 为 jnt 是 原子 类 型 ， 而 Integer 则 是 引用 类 型 ， 只 有 引用 类 型 允许 在 尖 括 号 内 。 在 
Java 1.5 之 后 ， 加 入 了 一 种 称 为 auto-boxing 的 特性 ， 人 允许 交替 地 使 用 int 和 Integer， 例 如 . 


Integer x = 5; 














int y = 6; 

Integer z = x + y; 

更 多 细节 请 查阅 Java 文 档 。 459 
A.3 C# 


C# 是 和 Java 类 似 的 一 门 语言 ， 运 行 在 Microsoft 的 .Net 平 台 上 。 
A.3.1 线程 


C# 提 供 了 与 Java 相 类 似 的 线程 模型 。C# 线 程 是 由 System.Threading.Thread 类 实现 的 。 
当 创建 一 个 线程 时 ， 通 过 给 它 传递 一 个 ThreadStart 委 托 〈 一 种 指向 所 要 调用 方法 的 指针 ) ， 
告诉 所 要 做 的 事 。 例 如 ， 下 面 是 一 个 打印 消息 的 例子 : 


void HelloWorld() 


Console.WriteLine("“Hello World"); 


接着 ， 将 这 个 方法 转变 成 ThreadStart 代 理 ， 并 将 该 委托 传递 给 该 线程 的 构造 函数 。 


ThreadStart hello = new ThreadStart (HelloWorld); 
Thread thread = new Thread(hello); 


C# 提 供 了 简短 的 语法 ， 称 为 匿名 方法 ， 该 方法 允许 直接 定义 一 个 委托 ， 例 如 ， 可 以 将 前 
面 的 步骤 组 合 到 单一 的 表达 式 中 : 


Thread thread = new Thread(delegate(} 
{ 


Console.WriteLine("Hello World"); 


和 Java 一 样 ， 当 线程 被 创建 以 后 ， 它 必须 启动 : 

thread.Start(); 

这 个 调用 将 使 得 线程 开始 运行 ， 而 调用 者 也 立即 返回 。 如 果 调 用 者 要 等 待 线程 完成 ， 它 
必须 连接 线程 : 

thread.Join(); 

调用 者 将 被 阻塞 直到 线程 的 方法 返回 。 

图 A-4 描 述 了 一 个 能 够 初始 化 多 个 线程 、 启 动 它们 、 等 待 其 完成 并 打印 出 信息 的 方法 。 该 
方法 创建 一 个 线程 数组 , 并 用 它 自己 的 ThreadStart 委 托 初 始 化 每 个 线程 。 然后 启动 这 些 线程 ， 
每 个 线程 执行 它 的 委托 ， 显 示 其 信息 。 最 后 ， 等 待 每 个 线程 完成 ， 并 在 它们 全 部 完成 时 显示 
一 条 信息 。 除 了 有 少 部 分 语法 不 同 之 外 ， 该 代码 与 用 Java 写 的 代码 非常 相似 。 


334 第 三 部 分 M F 






static void Main(string[] args) 


{ 





Thread[] thread = new Thread[8]; 

// create threads 

for (int i = 0; i < thread.Length; i++) 

{ 
String message = “Hello world from thread" + i; 
ThreadStart hello = delegate() 
{ 





Console.WriteLine(message) ; 


E 
thread[i] = new Thread(hello); 
} 
// start threads 
for (int i = 0; i < thread.Length; i++) 
{ 
thread[i].Start(); 


// wait for them to finish 
for (int i = 0; i < thread.Length; i++) 


N e e e e e e e e e a 
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thread{i] .Join(); 


Console.WriteLine("done!"); 


M DH PP 
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图 A-4 该 方法 初始 化 一 系列 C# 线 程 、 启 动 线程 、 等 待 线程 完成 ， 然 后 打印 出 信息 


A.3.2 Fiz 


对 于 简单 的 互 斥 ，C# 提 供 了 与 Java 中 的 synchronized 修 饰 符 相 类 似 的 锁定 对 象 的 
能 力 : 
int GetAndIncrement() 


lock (this) 
{ 


return value++; 
} 
} 


与 Java 不 同 的 是 ，C# 不 允许 直接 使 用 1ock 语 名 修改 方法 。 相 反 ，1ock 语 句 被 用 来 封装 方 

并 发 数据 结构 比 互 斥 要 求 的 更 多 : 它们 还 要 求 具有 等 待 条 件 并 给 条 件 发 出 信号 的 能 力 。 
与 Java 中 每 个 对 象 都 是 一 个 隐 含 的 管 程 不 同 ， 在 C# 中 必须 明确 地 创建 与 对 象 相关 的 管 程 。 要 
获得 一 个 管 程 锁 ， 应 调用 Monitor.Enter(this)， 而 要 释放 一 个 锁 ， 则 调用 
Monitor.Exit(this)。 每 个 管 程 具有 一 个 隐 含 条 件 ， 该 条 件 通过 调用 Monitor .Wait(this) 
进行 等 待 ， 通 过 调用 Monitor .Pulse(this) 或 Monitor .PulseA11(this ) 给 这 个 条 件 发 出 信 
号 ,分别 响 醒 一 个 或 所 有 的 睡眠 线程 。 图 A-5 和 图 A-6 描 述 了 如 何 使 用 C# 管 程 来 实现 一 个 有 
界 队 列 。 
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1 class Queue<T> 

2 { 

3 int head, tail; 

4 TE] calit; 

5 public Queue(int capacity) 

6 { 

7 call = new T[capacity]; 

8 head = tail = 0; 

9 } 

10 public void Enq(T x) 

11 { 

12 Monitor.Enter(this) ; 

13 try 

14 { 

15 while (tail - head == call.Length) 
16 { 

17 Monitor.Wait(this); // queue is full 
18 } 

19 calls[(tail++) % call.Length] = x; 
20 Monitor.Pulse(this}; // notify waiting dequeuers 
21 } 
22 finally 
23 { 
24 Monitor. Exit(this); 
25 } 
26 } 
27 } 
28 } 








图 A-5 有 界 队列 类 : 域 和 enq( ) 方 法 





29 public T Deq() 
{ 


30 

31 Monitor.Enter (this); 

32 try 

33 { 

34 while (tail == head) 

35 { 

36 Monitor.Wait(this); // queue is empty 
37 } 

38 T y = calls[(head++) % call.Length]; 

39 Monitor.Pulse(this); // notify waiting enqueuers 
40 return y; 

41 } 

42 finally 

43 { 

44 Monitor.Exit(this); 

45 } 

46 } 

47 } 














图 A-6 有 界 队 列 类 : deq( ) 方 法 
A.3.3 本 地 线程 对 象 


C# 提 供 了 一 种 非常 简单 的 能 够 使 静态 域 变 为 本 地 线程 的 方法 : 在 域 声明 前 加 上 属性 
[ThreadStatic]。 


[ThreadStatic] 
static int value; 
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由 于 初始 化 只 需 进 行 一 次 ， 而 不 是 对 每 个 线程 一 次 ， 所 以 不 需 对 [ThreadStatic] 域 提 
供 初始 值 。 相 反 ， 每 个 线程 将 会 发 现 该 域 值 初始 时 为 相应 类 型 的 默认 值 : 整 型 为 0， 引 用 为 
null 等 。 

图 A-7 描 述 了 ThreadID 类 的 实现 (图 A-3 是 Java 版 的 )。 关 于 这 个 程序 有 一 点 需要 讨论 。 线 
程 第 一 次 检查 它 的 [ThreadStatic] 标 识 时 ， 该 域 为 整 型 的 默认 值 0。 为 了 区 别 没有 初始 化 的 0 
和 线程 ID 0， 该 域 保存 的 线程 ID 用 1 替换 :， 对 于 线程 0 该 域 值 为 1， 后 面相 应 增加 。 














1 class ThreadID 
2 
3 [ThreadStatic] static int myID; 
4 static int counter; 
5 public static int get() 
6 { 
7 if (myID == 0) 
8 { 
9 myID = Interlocked.Increment(ref counter); 
10 
il return myID - 1; 
12 } 
13 } 

462 

2 
463 图 A-7 ThreadID 类 使 用 [ThreadStatic] 为 每 个 线程 提供 一 个 唯一 的 标识 


A.4 Pthreads 
Pthreads 为 C 和 C++ 提供 了 许多 同样 的 功能 。 使 用 Pthreads 编 程 时 必须 导入 头 文件 ; 


#include <pthread.h> 
下 面 的 函数 创建 并 启动 一 个 线程 : 


int pthread_create ( 
pthread t» thread id， 
const pthread attr tx attributes, 
void» (*thread function) (voidx) ， 
voids argument); 


第 一 个 参数 是 一 个 指向 线程 自身 的 指针 。 第 二 个 参数 允许 指定 线程 的 各 个 属性 ， 第 三 个 
参数 是 一 个 指向 线程 要 运行 的 代码 的 指针 〈 在 C# 中 则 是 一 个 委托 ， 在 Java 中 是 一 个 Runnab1e 
对 象 )， 第 四 个 参数 是 线程 函数 的 参数 。 与 Java 和 C# 不 同 ， 一 个 调用 既 能 创建 线程 又 能 启动 
线程 。 

当 函 数 返 回 或 调用 pthread_exit( ) 时 线程 结束 。 线 程 也 能 通过 下 面 的 调用 连接 : 

int pthread_join (pthread t thread, voidx* status ptr); 


退出 状态 则 存放 在 最 后 一 个 参数 中 。 例 如 ， 下 面 的 程序 打印 出 每 个 线程 的 简单 消息 。 


#include <pthread.h> 
#define NUM_THREADS 8 
void» hello(void* arg) { 
printf("Hello from thread %i\n", (int)arg); 


int main() { 
pthread_t thread[NUM_THREADS]; 
int status; 
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int i; 
for (i = 0; i < NUM THREADS; i++) { 
if ( pthread create(&thread[i], NULL, hello, (void*)i) != 0) { 
printf("pthread_create() error"); 
exit(); 
} 
} 
for (i = 0; i < NUM_THREADS; i++) { 
pthread_join(thread[i], NULL); 


} 
对 Pthreads 库 的 调用 会 锁定 互 斥 量 mutexes。 互 斥 通过 以 下 代码 创建 ; 


int pthread mutex init (pthread_mutex_t* mutex, 


const pthread _mutexattr_t* attr); 464 
互 斥 可 以 被 锁定 ， 
int pthread_mutex_lock (pthread_mutex_t* mutex); 
也 可 以 解锁 : 


int pthread mutex unlock (pthread mutex t* mutex); 
与 Java 中 的 锁 一 样 ， 如 果 一 个 互 斥 忙 ， 它 可 以 立即 返回 : 

int pthread_mutex_trylock (pthread mutex t* mutex); 

Pthreads 库 提供 条 件 变量 ， 它 能 通过 下 面 的 语句 创建 

int pthread cond init (pthread_cond_t* cond, pthread_condattr_t* attr); 
通常 ， 第 二 个 参数 将 属性 设置 为 非 默 认 值 。 与 Java 和 C# 不 同 ， 锁 和 条 件 变量 之 间 的 关联 是 显 
式 的 而 非 隐 含 的 。 下 面 的 调用 在 条 件 变量 上 释放 锁 并 等 待 : 

int pthread cond wait (pthread cond t* cond, pthread_mutex_t* mutex); 

(就 像 在 其 他 语言 中 一 样 ， 当 一 个 线程 被 唤醒 时 ， 并 不 能 保证 等 待 的 条 件 成 立 ， 所 以 必须 
要 显 式 地 检查 。) 也 可 能 出 现 超时 等 待 。 

下 面 的 调用 与 Java 中 的 notify() 相 似 ， 至 少 唤醒 一 个 被 挂 起 的 线程 : 

int pthread cond signal (pthread cond t *cond); 

下 面 的 调用 与 Java 中 的 notifyA11() 相 似 ， 唤 醒 全 部 被 挂 起 的 线程 : 

int pthread_cond broadcast (pthread_cond_t* cond); 
因为 C 设 有 垃圾 回收 ， 所 以 对 于 线程 、 锁 和 条 件 变量 都 提供 完整 的 destroy( ) 函 数 来 回收 这 些 资 源 。 

图 A-8 和 图 A-9 描 述 了 一 个 简单 的 并 发 FIFO 队 列 。 调 用 被 保存 在 一 个 数组 中 ，head 和 tail 
域 统计 入 队 和 出 队 的 调用 次 数 。 与 Java 中 的 实现 一 样 ， 采 用 单一 的 条 件 变 量 来 等 待 ， 以 使 缓 
冲 区 变 为 非 满 或 非 空 。 


本 地 线程 存储 器 


图 A-10 说 明了 Pthreads 是 如 何 管理 本 地 线程 存储 器 的 。Pthreads 库 将 一 个 线程 特定 值 与 一 
个 key 联 系 起 来 ， 在 第 1 行 中 声明 并 在 第 6 行进 行 初始 化 。 该 值 是 一 个 指针 ， 初 始 化 为 nul1。 线 
程 通过 调用 thread1D_get( ) 获 得 一 个 ID。 该 方法 查找 受 限 于 key 的 本 地 线程 值 (第 10 行 )。 在 
第 一 次 调用 时 ， 该 值 为 aull (第 11 行 )， 所 以 线程 必须 通过 增加 counter 变 量 得 到 一 个 新 的 唯一 
的 ID。 此 处 ， 我 们 使 用 互 斥 来 同步 对 计数 器 的 访问 (412 ~ 1677), 
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#include <pthread.h> 
#define QSIZE 16 
typedef struct { 
int buf[QSIZE]; 
long head, tail; 
pthread_mutex_t »mutex; 
pthread_cond_t *notFull, *notEmpty; 
} queue; 
void queue _enq(queue* q, int item) { 
// lock object 
pthread mutex_lock (q->mutex); 
// wait while full 
while (q->tail - q->head == QSIZE) { 
pthread cond wait (q->notFfull, q->mutex); 
} 
q->buf[q->tail % QSIZE] = item; 
q->tail++; 
// release lock 
pthread_mutex_unlock (q->mutex); 
// inform waiting dequeuers 
pthread_cond_signal (q->notEmpty); 


queue *queue_init (void) { 
queue xq; 
q = (queuex)malloc (sizeof (queue)); 
if (q == NULL) return (NULL); 
q->head = 0; 
q->tail = 0; 
q->mutex = (pthread_mutex_t*) malloc (sizeof (pthread_mutex_t)); 
pthread_mutex_init (q->mutex, NULL); 
q->notFull = (pthread cond tx*) malloc (sizeof (pthread_cond_t)); 
pthread_cond_init (q->notFull, NULL); 
q->notEmpty = (pthread cond t*) malloc (sizeof (pthread_cond_t)); 
pthread_cond_init (q->notEmpty, NULL); 
return (q); 





l 





图 A-8 使 用 Pthreads 的 并 发 FIFO 队 列 的 初始 化 和 入 队 方 法 


| 37 int queue _deq{queue» q) { 

38 int result; 

39 // lock object 

40 pthread_mutex_lock (q->mutex); 
41 // wait while full 





42 while (q->tail == q->head) { 
43 pthread cond wait (q->notEmpty, q->mutex); 
44 } 


45 result = q->buf[q->head % QSIZE]; 
46 q->head++; 

47 // release lock 

48 pthread_mutex_unlock (q->mutex); 


49 // inform waiting dequeuers 

50 pthread cond signal (q->notFull); 
51 return result; 

52 } 


53 void queue delete (queue* q) { 

54 pthread _mutex_destroy (q->mutex); 
55 free (q->mutex); 

56 pthread_cond destroy (q->notFull); 
57 free (q->notFull); 

58 pthread cond destroy (q->notEmpty); 
59 free (q->notEmpty); 

60 free (q); 

61 } 


图 A-9 Pthreads: 并 发 FIFO 队 列 的 出 队 和 删除 方法 
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pthread_key_t key; /* key */ 
int counter; /* generates unique value */ 
pthread_mutex_t mutex; /* synchronizes counter */ 
threadID init() { 
pthread_mutex_init(&mutex, NULL); 
pthread key create(&key, NULL); 
counter = 0; 
} 
int threadID get() { 
int» id = (int«)pthread_getspecific(key); 
if (id == NULL) { /x first time? x/ 
id = (int*)malloc(sizeof(int)); 
pthread_mutex_lock(&mutex) ; 
xid = counter++; 
pthread_setspecific(key, id); 
pthread_mutex_unlock(&mutex) ; 


On ADO PWN 


return «id; 


} 
图 A-10 该 程序 使 用 Pthreads 本 地 线程 存储 管理 调用 为 每 个 线程 提供 一 个 唯一 的 标识 各 





A.5 本 章 注释 


Java 程 序 设计 语言 是 由 James Gosling[46] 所 创立 的 。Dennis Ritchie 被 认为 是 C 语 言 的 创立 
者 。Pthreads 是 IEEE Posix 包 的 一 部 分 。 尽 管 使 用 了 不 同 的 等 待 和 通知 机 制 ， 但 基本 的 管 程 模 
型 则 被 认为 是 由 Tony Hoare[71] 和 Per Brinch Hansen[52] 创 建 的 。Java (及 随后 的 C#) 所 使 用 
的 机 制 最 初 是 由 Butler Lampson 和 David Redell[96] 提 出 的 。 
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一 个 初学 者 正在 试图 通过 重新 关闭 /开启 电源 来 修理 一 台 破 旧 的 Lisp 机 器 。 Knight 看 
到 学 生 所 做 的 事 , 严厉 地 说 :“ 当 你 不 知道 哪里 出 错 的 时 候 , 总 是 重启 是 解决 不 了 问题 的 。” 
说 完 之 后 ，Knight 关 掉 电源 接着 又 打开 ， 机 器 就 正常 工作 了 ，。 
一 一 来 自 “AI Koans”，20 世 纪 80 年 代 流行 于 MIT 的 笑话 


B.1 引言 (和 一 个 难题 ) 


除非 已 了 解 什么 是 多 处 理 器 ， 否 则 无 法 在 多 处 理 器 上 进行 有 效 地 编程 。 我 们 无 需 掌握 大 
量 关 于 计算 机 系统 结构 的 知识 ， 就 能 为 单 处 理 器 编写 出 相当 好 的 程序 ， 然 而 对 于 多 处 理 器 来 
说 ,情况 就 大 不 一 样 了 。 下 面 通过 一 个 难题 来 说 明 这 一 点 。 考 虑 两 个 程序 ， 除 了 一 个 比 另 一 
个 效率 要 低 一 些 外 ， 它 们 在 逻辑 上 是 等 价 的。 效率 低 一 些 的 程序 较为 简单 。 如 果 对 现代 多 处 
理 器 系统 结构 没有 一 个 基本 的 理解 ， 则 无 法 解释 这 种 差异 而 且 也 无 法 避免 这 种 危险 。 

下 面 是 该 问题 的 相关 背景 ， 假 设 两 个 线程 共享 一 个 资源 ， 在 同一 时 刻 该 资源 只 能 被 一 个 线程 使 
用 。 为 了 防止 同时 使 用 ， 每 个 线程 在 使 用 资源 前 必须 要 对 资源 上 锁 ， 使 用 完 资源 后 要 解锁 。 在 第 7 间 
中 已 学 习 了 多 种 实现 锁 的 方法 。 针 对 这 个 问题 ， 
我 们 考虑 两 种 简单 的 实现 ， 其 中 都 将 锁 看 做 是 
一 个 布尔 域 。 如 果 该 域 值 为 bjse， 则 锁 是 空闲 
的 ， 否 则 锁 正 在 被 使 用 。 可 以 使 用 
getAndSet() 方 法 来 控制 锁 ， 该 方法 能 自动 将 
参数 "与 布尔 域 的 值 交 换 。 若 要 获得 锁 ， 线 程 
则 调用 getAndSet(true)。 如 果 调 用 返回 false， 图 B-1 TASLock 类 
则 锁 是 空闲 的 ， 调 用 者 成 功 锁定 对 象 。 否 则 对 
象 已 经 被 锁定 ， 线 程 必 须 以 后 再 次 尝试 。 线 程 | 1 
通过 简单 地 将 false 存 入 布尔 域 中 来 释放 锁 。 

在 图 B-1 中 ， 测 试 -设置 锁 (TASLock) 4 while (true) { | 

5 while (state.get()) {}; // spin 

不 断 地 调用 getAndSet(true) (第 4 行 )， 直 6 if (!state.getAndSet (true)) 
3 
9 
0 
1 





public class TASLock implements Lock { 


1 
2 meee 
3 public void lock() { 

4 while (state.getAndSet(true)) {} // spin 
5 } 

6 ater 

7 








public class TTASLock implements Lock { o] 


public void lock() { 


到 它 返 回 false 为 止 。 然 而 ， 在 图 B-2 中 ， 测 Pep 

试 -测试 -设置 锁 (TTASLock) 则 不 断 地 读 } 

锁 的 布尔 域 (在 第 5 行 调用 state.get())， | 19 ，… 

直到 返回 false 时 才 调 用 getAndset() (第 6 行 )。 上 上 一 

对 锁 值 的 读 操作 是 原子 的 ， 对 锁 值 的 图 B-2 TTASLock 类 

getAndSet() 调 用 也 是 原子 的 ， 但 它们 的 组 

合 却 不 是 原子 的 ,在 线程 读 锁 的 值 和 调用 getAndSet( ) 之 间 ， 锁 的 值 有 可 能 已 经 发 生 了 改变 ， 
在 继续 讨论 之 前 ， 首 先 应 该 理解 TASLock 和 TTASLock 这 两 个 算法 在 逻辑 上 是 一 样 的 。 原 因 
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很 简单 : 在 TTASLock 算 法 中 ， 当 读 到 锁 为 空闲 时 并 不 能 保证 接 下 来 的 getAndSset() 调 用 能 
成 功 ， 其 原因 在 于 其 他 的 线程 有 可 能 在 读 锁 和 尝试 获得 锁 的 这 段 时 间 内 获得 了 锁 。 那 么 ,为 
什么 还 要 在 尝试 获得 锁 之 前 去 读 锁 呢 ? 

这 是 一 个 令 人 费解 的 问题 。 虽 然 这 两 个 锁 的 实现 在 逻辑 上 是 等 价 的 ， 但 它们 的 表现 却 非 
常 不 同 。 在 1989 年 的 经 典 实验 中 ，Anderson 在 当时 的 
一 些 多 处 理 器 上 测试 了 执行 一 个 简单 程序 所 需 的 时 
间 。 他 测量 了 n 个 线程 对 一 个 较 小 的 临界 区 执行 一 百 rd 
万 次 所 花费 的 时 间 。 图 B-3 描 述 了 每 种 锁 所 花费 的 时 i 
间 ， 它 是 作为 线程 数量 的 函数 来 绘制 的 。 在 理想 情况 
下 ，TASLock 和 TTASLock 的 曲线 和 底部 理想 曲线 一 样 
平坦 ， 这 是 因为 每 个 运行 都 进行 了 相同 数量 的 增加 。 
然而 ， 可 以 看 到 两 条 曲线 的 斜率 都 在 增加 ， 这 说 明 由 
锁 导 致 的 延迟 随 着 线程 数量 的 增加 而 增加 。 但 有 趣 的 


时 间 


TTASLock 





是 ，TASLock 锁 要 比 TTASLock 锁 慢 得 多 ， 尤 其 是 当 线程 -e o 
数量 增加 时 情况 更 明显 ， 这 是 什么 原因 呢 ? BIBS TASLOCK. TTAS ochre aie 
执行 时 间 比 较 


本 章 涵盖 了 要 写 出 高 效 的 并 发 算法 和 数据 结构 所 需 
的 关于 多 处 理 器 系统 结构 的 大 多 数 知识 。( 沿 着 这 条 思路 ， 我 们 将 解释 图 B-3 中 曲线 分 叉 的 原因 ,) 

我 们 主要 考虑 下 面 的 组 成 部 件 : 

“处 理 器 是 执行 软件 线程 的 硬件 设备 。 通 常 ， 线 程 的 数量 要 比 处 理 器 的 数量 多 ， 每 个 处 理 

器 运行 一 个 线程 一 段 时 间 ， 然 后 将 它 放置 在 一 边 ， 转 去 执行 另 一 个 线程 。 

“ 互 连 线 是 连接 处 理 器 与 处 理 器 以 及 处 理 器 与 内 存 之 间 的 通信 媒介 。 

“ 看 储 器 实际 上 是 一 种 存放 数据 的 层次 组 织 部 件 ， 包 括 一 个 或 多 个 层 的 小 容量 高 速 缓存 直 

到 相对 较 慢 的 大 容量 主 存 。 理 解 这 些 层次 之 间 的 相互 关系 是 理解 许多 并 发 算法 实际 性 能 

的 基石 。 

从 我 们 的 观点 来 看 , 一 种 系统 结构 的 原理 决定 了 其 他 的 所 有 事情 : 处 理 器 和 主 存 相距 很 远 。 
处 理 器 从 内 存 读 一 个 数据 要 花费 很 长 时 间 。 处 理 器 将 数据 写 到 内 存 也 要 花费 很 长 时 间 ， 而 处 理 
器 要 确认 数据 是 否 已 经 写 人 内 存 则 需要 花费 更 长 的 时 间 。 访 问 内 存 不 像 是 打 电 话 而 更 像 是 寄 信 。 
我 们 在 本 章 所 处 理 的 每 件 事 都 是 在 试图 减少 处 理 器 访问 内 存 所 花费 的 时 间 (“高 延迟 ”)。 

处 理 器 和 内 存 的 速度 都 在 快速 地 变化 ， 但 它们 的 相对 性 能 却 几 乎 没有 改变 。 我 们 来 考虑 
类 似 的 情形 ; 设想 现在 是 1980 年 ， 你 负责 中 型 城市 曼哈顿 的 送信 服务 。 虽 然 在 平坦 的 马路 上 
汽车 的 效率 要 超过 自行 车 ， 但 在 交通 拥堵 的 道路 上 汽车 却 赶不上 自行 车 的 效率 ， 所 以 你 选择 
了 自行 车 。 尽 管 自行 车 和 汽车 的 技术 都 已 经 发 展 和 进步 了 ， 然 而 ， 上 面 系统 结构 中 的 对 比 在 
此 仍然 适用 。 就 像 现 在 ， 如 果 你 正在 设计 城市 的 投 信服 务 ， 应 该 使 用 自行 车 而 不 是 汽车 。 


B.2 处 理 器 和 线程 


一 个 多 处 理 器 由 多 个 硬件 处 理 器 组 成 ， 其 中 每 一 个 处 理 器 都 能 执行 一 个 顺序 程序 。 当 讨 
论 多 处 理 器 系统 结构 时 ， 基 本 的 时 间 单位 是 指令 周期 ， 即 处 理 器 提取 和 执行 一 条 指令 所 花费 
的 时 间 。 从 绝对 速度 上 来 看 ， 时 钟 周期 随 着 技术 的 进步 发 生 了 转变 (从 1980 年 的 约 每 秒 一 千 
万 次 到 2005 年 的 约 每 秒 30 亿 次 ) ， 在 不 同 的 平台 上 也 不 尽 相 同 (控制 烤 面 包机 的 处 理 器 的 时 钟 


人 


342 第 三 部 分 M F 


周期 比 控制 网 络 服 务 器 的 要 长 )。 然 而 ， 若 采用 指令 周期 来 表示 指令 执行 的 相对 代价 ， 如 访问 
内 存 ， 其 变化 却 很 慢 。 

线程 是 一 个 顺序 程序 。 处 理 器 是 一 个 硬件 设备 ， 而 线程 则 是 一 种 软件 构造 。 处 理 器 可 以 
执行 一 个 线程 一 段 时 间 ， 然 后 不 管 该 线程 转 去 执行 另 一 个 线程 ， 即 我 们 熟悉 的 上 下 文 切换 。 
处 理 器 可 以 因为 各 种 原因 撤销 一 个 线程 或 从 调度 中 删除 该 线程 。 线 程 有 可 能 已 经 发 出 一 个 内 
存 请 求 ， 而 该 请 求 要 花费 一 段 时 间 才 能 得 到 满足 ， 或 者 线程 已 经 运行 了 足够 长 的 时 间 ， 该 让 
别 的 线程 运行 了 。 当 线程 被 从 调度 中 删除 时 ， 它 可 能 重新 在 另 一 个 处 理 器 上 执行 。 


B.3 互 连 线 


互 连 线 是 处 理 器 与 内 存 以 及 处 理 器 与 处 理 器 之 间 进 行 通信 的 媒介 。 有 两 种 基本 的 互 连 结 
构 : SMP (symmetric multiprocessing， 对 称 多 处 理 ) 和 NUMA (nonuniform memory access, 
非 一 致 内 存 访问 )， 如 图 B-4 所 示 。 





<— 处理 器 
<< 高 速 缓存 





图 B-4 n 构 ， 左 边 是 无 高 速 缓存 的 NUMP 系 统 结构 


在 SMP 系 统 结构 中 ， 处 理 器 和 内 存 之 间 采 用 总 线 互 连 结构 ， 类 似 于 微型 以 太 网 上 的 广播 
媒介 。 处 理 器 和 主 存 都 有 用 来 负责 发 送 和 监听 总 线 上 广播 的 信息 的 总 线 控制 单元 (监听 有 时 
称 为 探听 )。 如 今 SMP 系 统 结构 非常 普遍 ， 因 为 它们 最 容易 构建 ， 但 是 对 于 数量 较 多 的 处 理 器 
来 说 ， 这 种 系统 结构 不 具有 扩展 性 ， 因 为 总 线 最 终 将 变 为 过 载 。 

在 NUMA 系 统 结构 中 ， 一 系列 节点 通过 点 对 点 网 络 相互 连接 ， 就 像 一 个 小 型 的 局 域 网 。 
每 个 节点 包含 一 个 或 多 个 处 理 器 和 一 个 本 地 存储 器 。 一 个 节点 的 本 地 存储 对 于 其 他 节点 是 可 
访问 的 ， 所 有 市 点 的 本 地 存储 一 起 形成 一 个 可 以 被 所 有 处 理 器 共享 的 全 局 存储 器 。NUMA 的 
名 字 反 映 了 一 个 事实 ， 即 处 理 器 访问 自己 节点 存储 器 的 速度 要 比 访问 其 他 节点 存储 器 的 速度 
快 。 网 络 要 比 总 线 复杂 ， 需 要 更 加 复杂 的 协议 ， 但 是 对 于 数量 较 多 的 处 理 器 来 说 网 络 比 总 线 
的 可 扩展 性 更 好 。 

可 以 在 SMP 和 NUMA 系 统 结构 之 间 设 计 一 种 折 中 方案 : 设计 一 种 混合 系统 结构 ， 同 一 集 
群 中 的 处 理 器 通过 总 线 通 信 ， 而 不 同 集 群 中 的 处 理 器 则 通过 网 络 通信 。 

从 程序 员 的 角度 看 ， 底 层 平台 无 论 是 基于 总 线 、 网 络 还 是 混合 结构 似乎 并 不 重要 。 然 而 ， 
理解 互 连 线 是 由 处 理 器 所 共享 的 有 限 资 源 是 很 重要 的 。 如 果 一 个 处 理 器 使 用 较 多 的 互 连 线 带 
宽 ， 那 么 其 他 的 处 理 器 就 会 被 延迟 。 


B4 + 

主 存 由 所 有 处 理 器 共享 使 用 ， 它 是 一 个 很 大 的 由 字 所 组 成 的 数组 ， 通 过 地 址 进行 索引 。 
依赖 于 这 种 平台 ， 一 般 情 况 下 ， 一 个 字 的 长 度 是 32 位 或 64 位 ， 地 址 也 是 一 样 。 稍 许 简化 地 来 
看 ， 处 理 器 给 主 存 发 送 一 个 包含 有 目标 地 址 的 信息 ， 读 取 主 存 的 值 。 处 理 器 发 送 一 个 地 址 和 


附录 B 硬件 基础 343 


新 的 数据 ， 向 主 存 中 写 入 一 个 值 ， 当 新 数据 被 写 入 后 ， 主 存 会 发 回 一 个 确认 信息 
B.5 高 速 缓存 


不 幸 的 是 ， 在 现代 系统 结构 中 一 次 主 存 访问 可 能 会 花费 数 百 个 时 钟 周 期 ， 因 此 ， 存 在 这 
样 一 种 危险 ， 即 处 理 器 将 会 花费 许多 时 间 等 待 主 存 响 应 请 求 。 解 决 这 一 问题 的 方法 就 是 引入 
RT aR IE ae 一 种 与 处 理 器 非常 接近 因此 速度 比 主 存 要 快 的 小 容量 存储 器 。 这 些 高 

速 缓存 逻辑 上 位 于 处 理 器 和 主 存 之 间 : 当 处 理 器 试图 从 给 定 的 主 存 地 址 读 取 一 个 值 时 ， 首 先 
查看 该 值 是 否 已 经 在 高 速 缓 在 中 ， 如 果 在 ， 则 不 需要 进行 较 慢 的 主 存 访问 。 如 果 找 到 目标 地 
址 的 值 ， 则 称 处 理 器 在 高 速 缓存 中 命中 ， 否 则 称 为 缺失 。 同 样 ， 如 果 处 理 器 试图 写 的 地 址 在 
高 速 缓 丰 中， 那么 它 就 不 需要 执行 较 慢 的 主 存 访问 。 在 高 速 缓存 中 符合 请 求 的 比例 称 为 高 速 
缓存 的 命中 率 。 

高 速 缓存 是 非常 有 效 的 ， 因 为 大 多 数 程序 都 表现 出 较 高 的 局 部 性 : 如 果 处 理 器 读 或 写 一 
个 内 存 地 址 (或 者 内 存单 元 ) ， 那 么 它 很 快 将 读 或 写 同 一 个 地 址 。 况 且 ， oo 
个 内 存单 元 ， 那 么 它 很 可 能 会 立刻 读 或 写 该 单元 附近 的 单元 。 为 了 利用 第 二 个 结论 ， 高 速 缓 
Cah ASTAR Rae WR Ee. eo tee 
存 块 ) 。 

实际 上 ， 大 多 数 处 理 器 都 具有 二 级 高 速 缓存 ， 称 为 L1 Cache 和 L2 Cache, L1 Cache 通 常 
和 处 理 器 在 同一 个 芯片 中 ， 对 它 的 访问 通常 需要 一 到 两 个 时 钟 周 期 。L2 Cache 则 可 放置 在 芯 
片 中 也 可 以 不 放置 在 芯片 中 ， 对 它 的 访问 需要 数 十 个 时 钟 周期 。 两 者 都 比 要 花费 数 百 个 时 钟 
周期 的 内 存 快 得 多 。 当 然 ， 对 于 不 同 的 平台 ,访问 次 数 会 随 之 而 变化 ， 许 多 多 处 理 器 都 具有 
更 为 精细 的 高 速 缓存 结构 。 

NUMA 系 统 结构 的 最 初 提议 中 并 不 包含 高 速 缓存 ， 因 为 当初 认为 有 本 地 内 存 就 已 足够 了 。 
然而 后 来 的 商用 NUMA 系 统 结构 却 包 含有 高 速 缓 在。 术语 缓存 一 致 的 NUMA (cc-NUMA) 有 
时 用 来 指 带 有 高 速 缓存 的 NUMA 系 统 结构 。 为 了 避免 歧义 ， 今 后 除非 明确 指出 ， 我 们 所 说 的 
NUMA 都 是 缓存 一 致 的 。 

由 于 高 速 缓存 的 生产 价格 高 ， 因 此 其 大 小 要 比 内 存 小 得 多 : 在 同一 时 刻 只 有 一 部 分 内 存 
单元 被 放置 在 高 速 缓存 中 。 因 此 ， 我 们 希望 在 高 速 缓存 中 保存 那些 最 常 使 用 的 单元 。 这 意味 
着 当 内 存单 元 要 被 装 和 到 高 速 缓存 中 而 缓存 已 满 时 ， 有 必要 收回 一 个 缓存 块 ， 如 果 该 缓存 块 
没有 被 修改 则 直接 丢弃 ， 如 果 已 被 修改 则 写 回 主 存 。 葵 换 策略 则 决定 将 替换 掉 哪 一 个 缓存 块 ， 
以 便 为 新 的 内 存单 元 腾 出 空间 。 如 果 替 换 策 略 是 自由 地 替换 任何 缓存 块 ， 则 称 该 高 速 缓存 是 
全 相 联 的 。 另 一 方面 ， 如 果 只 可 以 替换 唯一 的 缓存 块 ， 则 称 该 缓存 是 直接 映射 的 。 如 果 我 们 
折 中 这 种 差别 ， 人 允许 使 用 一 组 大 小 为 K 的 块 的 集合 中 的 任何 一 个 块 来 奉 换 一 个 给 定 的 块 ， 则 称 
这 样 的 缓存 为 k 级 组 相 联 的 。 


B.5.1 一 致 性 


当 一 个 处 理 器 读 或 写 被 另 一 处 理 器 装 入 高 速 缓存 的 主 存 地 址 时 ， 将 发 生 共 享 (或 称 内 存 
争 用 ) 现象 。 如 果 两 个 处 理 器 都 只 读数 据 而 不 修改 ， 那 么 数据 可 以 装 和 到 两 个 处 理 器 的 高 速 
缓存 中 。 然 而 ， 如 果 一 个 处 理 器 要 更 新 共享 的 缓存 块 ， 那 么 另 一 个 处 理 器 的 副本 必须 作废 以 
确保 它 不 会 读 到 过 期 的 值 。 通 常 称 这 个 问题 为 颖 存 一 至 性。 文献 中 包含 有 各 种 复杂 和 巧妙 的 ”[474 


Ji 
一 
Ww 


344 第 三 部 分 M F 


缓存 一 致 性 协议 。 我 们 首先 对 缓存 块 的 各 种 状态 进行 命名 ， 然 后 讨论 一 种 最 常用 的 称 为 MESI 
的 协议 。 该 协议 已 经 用 在 Pentium 和 PowerPC 处 理 器 中 。 下 面 是 缓存 块 的 状态 。 

e modified (修改 ) : 缓存 中 的 块 已 被 修改 ， 它 最 终 必 须 写 回 主 存 。 其 他 的 处 理 器 不 能 

缓存 这 个 块 。 

e exclusive ( 互 斥 ): 缓存 块 还 未 被 修改 ， 且 其 他 的 处 理 器 不 能 将 这 个 块 装 入 缓存 。 

e shared (共享 ) : 缓存 块 未 被 修改 ， 且 其 他 处 理 器 可 以 缓存 这 个 块 。 

e invalid (无 效 ): 块 中 不 包含 任何 有 意义 的 数据 。 

下 面 用 一 个 简短 的 例子 来 说 明 MESI 协 议 ， 如 图 B-5 所 示 。 为 了 方便 起 见 ， 假 设 处理 器 和 
内 存 之 间 是 通过 总 线 连 接 的 。 











图 B-5 MESI 高 速 缓存 一 致 性 协议 的 状态 转换 实例 。 在 a 中 ， 处 理 器 4 从 地 址 a 读 数据 ， 将 数据 
存 信 它 的 缓存 并 置 为 ecxclusive 状 态 。 在 b 中 ， 当 处 理 器 8 试 图 从 相同 的 地 址 读数 据 时 ，A 
检测 到 地 址 冲突 ， 以 相关 数据 做 出 响应 。 此 时 ，% 同 时 被 处 理 器 4 和 B 以 shared 状 态 装 入 
缓存 。 在 c 中 ， 如 果 B 要 对 共享 地 址 a 进行 写 操作 ， 则 将 其 状态 改变 为 modified， 并 广播 
此 信息 以 提醒 A (以 及 其 他 任何 可 能 已 将 该 数据 装 和 缓存 的 处 理 器 ) 将 它 的 缓存 块 状态 
设置 为 invalid。 在 d 中 ， 如 果 4 随 后 从 a 读数 据 ， 它 会 广播 它 的 请 求 ，B 则 通过 将 修改 过 
的 数据 发 送 到 4 和 主 存 ， 并 置 两 个 副本 的 状态 为 shared 来 做 出 响应 
处 理 器 4 从 地 址 4a 读 数据， 将 数据 存 人 它 的 高 速 缓 存 并 置 为 exclusive 状 态 。 当 处 理 器 8 试图 
从 同一 个 地 址 读数 据 时 ，A4 检 测 到 地 址 冲突 ， 并 以 相关 数据 做 出 响应 。 此 时 ，a 同 时 被 A4 和 2B 以 
shared 状 态 装 入 缓存 。 如 果 B 要 对 地 址 a 进行 写 操作 ， 则 将 其 状态 改变 为 modified， 并 广播 此 信 
息 以 提醒 A (以 及 其 他 任何 可 能 已 将 该 数据 装 入 缓存 的 处 理 器 ) 将 它 的 缓存 块 状态 设置 为 
invalid。 如 采 4 随 后 要 从 < 读数 据 ， 它 会 广播 它 的 请 求 ，B 则 通过 将 修改 过 的 数据 发 送 到 A 和 主 
存 ， 并 置 两 个 副本 的 状态 为 shared 来 做 出 响应 。 

当 处 理 器 访问 逻辑 上 不 同 的 数据 时 ， 由 于 它们 要 访问 的 内 存单 元 对 应 于 同一 个 缓存 块 而 
导致 发 生 冲 突 的 现象 称 为 错误 共享 。 这 种 情形 反映 了 一 种 难于 处 理 的 权衡 问题 : 较 大 的 缓存 
块 对 局 部 性 有 利 ， 但 却 增加 了 错误 共享 的 可 能 性 。 出 现 错误 共享 的 可 能 性 可 以 通过 确保 独立 
线程 并 发 访问 的 数据 对 象 距离 内 存 足 够 远 来 降低 。 例 如 ， 让 多 个 线程 共享 一 个 字 节 数组 则 可 
以 导致 错误 共享 ， 但 是 若 让 它们 共享 双 精 度 整 型 数组 则 出 现 错误 共享 的 危险 性 就 变 得 很 小 了 。 
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B.5.2 自 旋 


如 果 处 理 避 不断 地 测试 内 存 中 的 某 个 字 ， 等 待 男 一 个 处 理 器 改变 它 ， 则 称 该 处 理 器 正在 
自 旋 。 自 旋 依赖 于 体系 结构 ， 能 对 整个 系统 的 性 能 产生 显著 的 影响 。 

对 于 无 高 速 缓存 的 SMP 系 统 结构 来 说 ， 自 旋 是 一 种 非常 糟糕 的 想法 。 每 当 处 理 器 读 内 存 
时 ， 都 会 消耗 总 线 带 宽 却 没有 做 任何 有 用 的 工作 。 由 于 总 线 是 广播 媒介 ， 这 些 直 接 对 内 存 的 
请 求 可 能 会 阻止 其 他 处 理 器 的 推进 。 

对 于 无 高 速 缓存 的 NUMA 系 统 结构 ， 如 果 地 址 位 于 处 理 器 的 本 地 存储 器 中 ， 那 么 自 旋 是 
可 以 接受 的 。 尽 管 无 高 速 缓存 的 多 处 理 器 系统 结构 很 少见 ， 我 们 仍然 要 研究 当 考 虑 具有 自 旋 
的 同步 协议 时 ， 是 否 允 许 每 个 处 理 器 在 它 自己 的 本 地 存储 器 上 自 旋 。 

对 于 具有 高 速 缓 存 的 SMP 或 NUMA 系 统 结构 ， 自 旋 仅 消耗 非常 少 的 资源 。 处 理 器 第 一 次 
读 地 址 时 ， 会 产生 一 个 高 速 缓存 缺失 ， 将 该 地 址 的 内 容 加 载 到 缓存 块 中 。 此 后 ， 只 要 数据 没 
有 改变 ， 处 理 器 只 需 从 它 自己 的 高 速 缓存 中 重读 数据 ， 不 需 占用 互 连 带宽 ， 这 种 过 程 称 为 本 
地 自 旋 。 当 高 速 缓存 状态 发 生 改 变 时 ， 处 理 器 产生 一 个 高 速 缓存 缺失 ， 观 察 到 数据 已 发 生 改 
变 ， 并 停止 自 旋 。 


B.6 考虑 高 速 缓存 的 程序 设计 问题 


现在 可 以 解释 为 什么 B.1 节 中 的 TTASLock 要 优 于 TASLock。TASLock 每 次 对 锁 调 用 
getAndSet(true) 时 ， 都 在 互 连 线 上 发 送 一 个 消息 ， 引 发 大 量 的 通信 流量 。 在 SMP 系 统 结构 上 ， 
引发 的 流量 有 可 能 完全 占有 互 连 线 ， 从 而 延迟 了 所 有 的 线程 ， 包 括 正 在 试图 释放 锁 的 线程 以 
及 那些 没有 和 争 用 锁 的 线程 。 与 此 相反 ， 当 锁 繁 忙 时 ，TTASLock 则 自 旋 ， 读 取 本 地 缓存 的 锁 副 
本 ， 并 不 在 互 连 线 上 产生 流量 ， 从 而 说 明 它 具有 更 好 的 性 能 。 

然而 TTASLock 本 身 与 理想 情况 仍 相距 很 远 。 当 锁 被 释放 时 ， 其 所 有 的 缓存 副本 变 为 无 效 ， 
而 所 有 的 等 待 线 程 都 在 调用 getAndSet(true)， 从 而 导致 了 流量 的 激增 ， 虽然 比 TASLock 的 小 ， 
但 仍然 是 很 可 观 的 。 

我 们 在 第 7 章 对 带 有 锁 的 高 速 缓存 的 交互 问题 进行 了 讨论 。 同 时 ， 下 面 给 出 了 几 种 关于 如 
何 组 织 数据 以 避免 错误 共享 的 简单 方法 。 其 中 的 一 些 技 术 在 类 似 于 C 或 C++ 这 种 支持 细 粒 度 存 
储 控制 的 语言 中 实现 要 比 在 Java 中 容易 得 多 。 

。 独立 访问 的 对 象 或 域 应 该 被 补充 调整 使 得 它们 能 在 不 同 的 缓存 块 上 结束 使 用 。 

“将 只 读数 据 与 那些 频繁 修改 的 数据 相 分 离 。 例 如 ， 考 虑 一 个 链表 ， 其 结构 是 固定 不 变 的 ， 

但 其 元 素 的 值 频繁 地 变化 。 为 了 确保 修改 不 会 减 慢 对 链表 的 遍历 ， 应 该 补充 调整 值 域 以 

使 得 每 个 值 占 满 一 个 缓存 块 。 

“在 允许 的 情形 下 ， 将 一 个 对 象 分 解 成 一 些 本 地 线程 片段 。 例 如 ， 用 于 统计 的 计数 器 可 以 

分 解 为 一 个 由 计数 器 组 成 的 数组 ， 每 个 线程 一 个 ， 每 个 都 位 于 不 同 的 缓存 块 中 。 当 一 个 

共享 的 计数 器 导致 无 效 的 流量 时 ,分解 的 计数 器 则 允许 每 个 线程 更 新 自己 的 副本 而 不 会 

引起 相关 的 流量 。 

* 如 果 用 一 个 锁 来 保护 频繁 修改 的 数据 ， 那 么 要 将 锁 和 数据 保存 在 不 同 的 缓存 块 ， 这 样 ， 

正在 尝试 获得 锁 的 线程 不 会 干扰 锁 的 持 有 者 对 数据 的 访问 。 

。 如果 用 一 个 锁 来 保护 不 常 争 用 的 数据 ， 那 么 要 尽量 将 锁 和 数据 保存 在 同一 个 缓存 块 中 ， 

这 样 ， 获 取 锁 的 同时 也 会 将 一 部 分 数据 装 入 到 缓存 块 中 。 


A 


$ 
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B.7 多 核 与 多 线程 体系 结构 


如 图 B-6 所 示 ， 在 多 核 体系 结构 中 ， 多 个 处 理 器 被 放置 在 同一 个 芯片 中 。 芯 片上 的 每 个 处 
理 器 通常 都 有 自己 的 L1 高 速 缓存 ， 但 它们 共享 一 个 多 核 芯片 
公共 的 L2 高 速 缓存 。 处 理 器 之 间 可 以 通过 共享 L2 高 
速 缓存 进行 高 效 的 通信 ， 从 而 避免 了 进入 内 存 并 调 
用 那些 令 人 讨厌 的 一 致 性 协议 。 

在 多 线程 体系 结构 中 ， 一 个 处 理 器 可 以 一 次 执 
行 两 个 或 更 多 个 线程 。 许 多 现代 处 理 器 都 具有 重要 
的 内 在 并 行 性 。 它 们 能 够 不 按 次 序 来 执行 指令 ， 或 
以 并 行 的 方式 执行 (如 保持 定 长 和 浮 点 单元 同时 繁 
忙 )， 其 至 可 以 在 分 支 或 数据 计算 之 前 预测 地 执行 指 。 图 3-6 多 核 SMP 系 统 结构 。L2 缓 存在 处 
WT REPEC TCM, SR REN ANTE Se AEH ee 
多 个 流 的 指令 混合 执行 。 

现代 处 理 器 系统 结构 将 多 核 系统 结构 与 多 线程 系统 结构 相 结合 ， 多 个 独立 地 支持 多 线程 
的 核 可 以 放置 到 同一 个 芯片 中 。 在 一 些 多 核 芯片 上 ， 上 下 文 切换 所 花费 的 代价 非常 低 ， 并 可 
以 在 很 细 的 粒度 上 进行 ， 特 别 对 于 那些 每 条 指令 都 要 切换 的 上 下 文 更 是 如 此 。 因 此 ， 多 线程 
方式 避免 了 较 大 的 内 存 访问 时 延 ， 当 一 个 线程 访问 内 存 时 ， 处 理 器 会 让 另 一 个 线程 执行 。 
松弛 的 内 存 一 致 性 

当 处 理 器 要 将 一 个 值 写 入 内 存 时 ， 该 值 被 保存 在 高 速 缓存 中 并 被 标记 为 脏 值 ， 以 表明 该 
值 最 终 必须 要 写 回 主 存 。 对 于 大 多 数 现代 处 理 器 来 说 ， 当 写 请 求 发 生 时 并 没有 直接 作用 到 主 
存 中 ， 而 是 将 它们 收集 到 一 个 称 为 写 比 冲 区 (或 称 存储 疤 冲 区 ) 的 硬件 队列 中 ， 在 以 后 的 其 
个 时 刻 再 一 起 作用 到 主 存 上 。 写 缓冲 具有 两 个 优点 。 首 先 ， 它 能 更 加 高 效 地 发 布 一 批 请 求 ， 
称 为 批 处 理 。 其 次 ， 如 果 一 个 线程 对 一 个 地 址 多 次 写 ， 早 先 的 请 求 会 被 抛弃 ， 节 省 了 内 存 访 
间 代 价 ， 这 种 现象 称 为 写 吸收 。 

写 缓冲 区 的 应 用 会 产生 一 个 非常 重要 的 结果 :对 主 存 发 出 的 读 写 访问 顺序 并 不 一 定 与 主 
存 中 实际 发 生 的 顺序 一 样 。 例 如 ， 回 想 第 1 章 中 对 互 斥 的 正确 性 起 着 重要 作用 的 标志 原则 ， 如 
果 两 个 处 理 器 各 自 都 先 写 自己 的 标志 ， 然 后 再 读 对 方 的 标志 位 ， 那 么 其 中 一 个 将 会 看 到 对 方 
最 新 写 的 标志 值 。 若 采用 写 缓冲 方式 ， 则 该 结论 不 再 成 立 ， 因 为 有 可 能 两 个 处 理 器 都 在 写 ， 
每 个 写 都 在 它 自己 的 写 缓冲 区 中 ， 但 这 两 个 缓冲 区 有 可 能 在 每 个 处 理 器 都 读 了 对 方 在 内 存 中 
的 标志 位 后 才 被 写 和 人。 这样 两 者 都 没有 读 到 对 方 的 标志 。 

在 编译 中 则 可 能 出 现 更 为 严重 的 问题 。 通 常 ， 编 译 器 适 于 在 单 处 理 器 系统 结构 上 进行 性 
能 优化 。 这 种 优化 往往 要 求 重 排 单个 线程 对 内 存 的 读 写 次 序 。 这 种 重 排序 对 于 单线 程 程序 是 
不 可 见 的 ， 但 对 多 线程 程序 来 说 ， 由 于 线程 可 以 观察 到 写 发 生 的 顺序 ， 则 会 产生 我 们 并 不 希 
望 的 结果 。 例 如 ， 如 果 一 个 线程 将 数据 装 入 缓冲 区 后 设置 一 个 指示 器 以 标记 缓冲 区 是 否 为 满 ， 
那么 并 发 线程 可 能 在 看 到 新 数据 之 前 看 到 了 指示 器 设置 ， 从 而 导致 它们 读 到 的 数据 为 旧 值 ， 
在 第 3 章 中 描述 的 错误 的 双重 校 验 上 锁 模式 则 是 一 个 由 于 Java 存 储 器 模型 的 不 直观 因素 所 产生 
错误 的 例子 。 


| 处 理 核 
| L1 高 速 缓存 
| L2 高 速 缓存 









芯片 外 的 内 存 
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不 同 的 系统 结构 对 于 内 存 读 写 的 重 排序 程度 提供 了 不 同 的 保证 。 总 之 ， 最 好 是 不 依赖 于 
这 种 保证 ， 而 是 使 用 下 面 所 描述 的 代价 更 高 的 技术 来 防止 这 种 重 排序 。 

所 有 的 系统 结构 都 提供 强制 写 操作 按照 它们 产生 的 次 序 来 执行 的 能 力 ， 但 这 种 方式 的 代 
价 很 高 。 内 存 路 障 指令 (有 了 时 称 为 内 存 栅栏 ) 将 刷新 写 缓冲 区 ， 以 确保 在 路 障 之 前 产生 的 所 
有 写 操 作对 于 产生 路 障 的 处 理 器 是 可 见 的 。 内 存 路 障 往往 是 通过 像 getAndSet( ) 这 样 的 原子 
读 - 改 一 写 操作 或 者 标准 的 并 发 库 来 透明 地 插入 。 因 此 ， 只 有 当 处 理 器 对 临界 区 外 的 共享 变量 
执行 读 / 写 指令 时 ， 才 需要 显 式 地 使 用 内 存 路 障 。 

一 方面 ， 内 存 路 障 的 代价 较 高 (100 个 时 钟 周期 或 者 更 多 ) ， 因 此 只 有 在 必要 时 才能 使 用 。 
另 一 方面 ， 由 于 同步 问题 很 难 追 踪 ， 所 以 应 该 宽松 地 使 用 内 存 路 障 ， 而 不 是 依靠 复杂 的 特定 
平台 来 保障 对 内 存 指 令 重 排序 的 限制 。 

Java 语 言 本 身 允 许 那些 发 生 在 synchronized 方 法 或 代码 块 之 外 的 对 对 象 域 的 读 / 写 操作 重 
排序 。Java 提 供 了 关键 字 volati1e 来 保证 对 synchronized 代 码 块 或 方法 之 外 的 volati1e 对 象 
域 上 进行 的 读 / 写 操作 不 被 重 排序 。 使 用 这 个 关键 字 的 代价 很 高 ， 所 以 只 有 在 必要 时 才 使 用 。 
从 原理 上 来 讲 ， 可 以 使 用 volatile 域 来 保证 双重 校 验 锁 算法 正常 工作 ， 但 是 可 能 不 存在 很 多 
个 点 ， 因 为 无 论 如 何 访问 volati1e 变 量 都 需要 同步 。 

到 此 为 止 ， 我 们 简单 地 介绍 了 多 处 理 器 硬件 的 基本 知识 。 在 专门 的 数据 结构 和 算法 中 将 
会 继续 讨论 这 些 系统 结构 的 相关 概念 。 一 种 新 的 模式 将 出 现 : 多 处 理 器 程序 的 性 能 在 很 大 程 
度 上 依赖 于 和 底层 硬件 的 协同 配合 。 


B.8 硬件 同步 指令 


正如 第 5$ 章 中 所 讨论 的 那样 ， 任 何 现代 多 处 理 器 系统 结构 都 必须 能 够 使 功能 强大 的 同步 原 
语 成 为 通用 的 ， 也 就 是 说 ， 能 提供 通用 图 灵机 的 并 发 计算 等 价 形式 。 因 此 ， 在 Java 语 言 中 ， 
其 同步 的 实现 是 依赖 于 这 些 专门 的 硬件 指令 (或 称 为 硬件 原 语 ) 的 ， 从 自 旋 锁 、 管 程 直到 最 
复杂 的 无 锁 结构 。 

现代 的 典型 系统 结构 通常 支持 两 种 通用 同步 原 语 中 的 一 种 。AMD、Intel 和 Sun 的 系统 结 
构 支 持 比 较 和 交换 (compare-and-swap, CAS) 指令 。 该 指令 具有 三 个 参数 :内存 地 址 a、 期 
望 值 和 更 新 值 ， 返 回 一 个 布尔 值 。 它 原子 地 执行 下 列 步 又 : 

。 如 果 内 存 地 址 as 中 包含 有 期 望 值 e， 

。 将 更 新 值 y 写 入 该 地 址 并 返回 true， 

。 否 则 ， 保 持 该 内 存 值 不 变 ， 并 返回 false。 

在 Intel 和 AMD 的 系统 结构 中 ，CAS 被 称 为 CMPXCHG， 而 在 SPARC™ 中 被 称 为 CAS。9 
Java 的 java.uti1.concurrent .atomic 库 提供 了 用 compareAndSet( ) 方 法 实现 CAS 的 原子 布尔 、 
整 型 和 引用 类 。( 由 于 我 们 的 例子 中 基本 上 都 采用 Java 语 言 ， 所 以 我 们 使 用 cmpareAndSet( ) 而 
不 是 CAS 。) C# 提 供 了 具有 相同 功能 的 Interlocked.CompareExchange 方 法 。 

CAS 指 令 有 一 个 缺陷 。 下 面 是 最 常 使 用 CAS 的 情形 。 一 个 应 用 从 给 定 的 内 存 地 址 读 值 a， 
并 且 为 该 地 址 计算 出 一 个 新 值 c。 仅 当 该 地 址 的 值 a 在 被 应 用 读 后 一 直 未 改变 ， 才 能 将 新 值 c 存 





提 ”SPARC 上 的 CAS 返 回 对 应 地 址 的 先前 值 ， 而 不 是 布尔 值 ， 该 值 用 于 重 试 失败 的 CAS。Intel Pentium 上 的 
CMPXCHG 能 同时 有 效 地 返回 一 个 布尔 值 和 先前 值 。 
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入 。 有 人 可 能 认为 用 期 望 值 a 和 更 新 值 c 调 用 CAS 能 实现 这 个 目标 。 然而 有 一 个 问题 : 一 个 线 
程 有 可 能 用 另 一 个 值 b 覆 写 了 a， 随 后 又 将 a 写 入 到 那个 地 址 中 ，。 CAS 指 令 将 用 c 替 换 掉 a， 但 是 
这 也 许 并 不 是 应 用 所 预期 的 结果 (例如 ， 如 果 地 址 中 存放 的 是 指针 ， 而 新 值 a 可 能 是 一 个 回收 
对 象 的 地 址 ) 。CAS 调 用 将 用 v 蔡 换 e， 但 是 应 用 并 没有 完成 它 所 预期 的 工作 。， 这 种 问题 称 为 
ABA 问 题 ， 在 第 16 章 中 已 做 了 详细 讨论 。 

另 一 个 硬件 同步 原 语 是 一 对 指令 : 加 载 /链接 和 存储 /条 件 (load-linked 和 store-conditional ， 
LL/SC)。LL 指 令 从 地 址 <a 读 数据。 随后 的 SC 指令 尝试 将 一 个 新 值 存 入 该 地 址 。 若 线程 对 a 产 
生 LL 指 令 以 来 ， 地 址 4 的 内 容 没 有 变化 则 该 SC 指令 成 功 。 若 在 这 段 期 间 a 的 内 容 发 生 了 变化 ， 
则 该 SC 指令 失败 。 

有 一 些 系统 结构 支持 LL 和 SC 指令 : Alpha AXP (1d1_1/st1_c)、IBM PowerPC (1warx/ 
stwcx), MIPS (11/sc) 和 ARM (1drex/strex), LL/SC 指 令 并 不 受 ABA 问 题 所 影响 ， 但 在 
实践 中 ， 往 往 对 一 个 线程 在 LL 与 对 应 的 SC 之 间 所 能 做 的 工作 加 以 限制 。 上 下 文 切换 是 另 一 种 
LL 指令 (或 男 一 种 加 载 /存储 指令 )， 该 指令 有 可 能 导致 SC 指令 失败 。 

保守 地 使 用 原子 域 及 其 相关 方法 是 一 种 比较 好 的 办 法 ， 因为 它们 通常 是 基于 CAS 或 LL/SC 
的 。 执行 一 条 CAS 或 LL/SC 指 令 往往 要 花费 比 执行 加 载 或 存储 指令 多 得 多 的 时 钟 周期 ， 它 包含 
内 存 路 障 、 防 止 乱 序 执行 以 及 各 种 编译 器 优化 。 准确 的 代价 取决 于 许多 因素 ， 不 仅 包 含 从 一 
种 系统 结构 到 另 一 种 系统 结构 的 变化 ， 而 且 还 包含 在 同一 种 系统 结构 中 从 一 种 应 用 到 另 一 种 
应 用 的 变化 。 这 足以 说 明 CSA 或 LL/SC 要 比 简单 的 加 载 /存储 慢 得 多 ， 


B.9 本 章 注释 


John Hennessy 和 David Patterson[58]# H 了 关于 计算 机 系统 结构 的 全 面 论述 。Intel 
Pentium 处 理 器 采用 了 MESI 协 议 [75]。 考 虑 缓存 的 程序 设计 的 要 点 是 根据 Benjamin Gamsa. 
Orran Krieger, Eric Parsons 和 Michael Stumm[43] 编 写 的 。Sarita Adve 和 Karosh 
Gharachorloo[1] 给 出 了 关于 内 存 一 致 性 模型 的 非常 好 的 综述 。 


B.10 习题 


习题 219. 线程 4 必须 等 待 另 一 个 处 理 器 上 的 一 个 线程 改变 内 存 中 的 标志 位 。 调度 器 可 以 让 4 自 旋 ， 
反复 地 测试 标志 位 ， 也 可 以 结束 4 的 调度 ， 人 允许 其 他 线程 运行 。 假设 操作 系统 将 处 理 器 从 一 个 线 
程 切换 到 另 一 个 线程 总 共 要 花 10 毫 秒 。 如 果 操 作 系统 放弃 调度 线程 4 并 立刻 重新 调度 它 ， 则 要 花 
费 20 毫 秒 。 然 而 ， 如 果 4 在 时 刻 % 自 旋 ， 标 志 位 在 时 刻 n 改 变 ， 那么 操作 系统 将 花费 1 一 to 时 间 做 无 
用 功 。 
预测 调度 器 是 一 种 可 以 预测 将 来 的 调度 器 。 如 果 它 预见 到 标志 将 在 小 于 20 毫 秒 的 时 间 内 改 
变 ， 那 么 它 浪费 少 于 20 毫 秒 的 时 间 让 4 自 旋 是 有 意义 的 ， 因为 放弃 调度 并 重新 调度 A 要 花费 20 毫 
秒 。 如 果 标 志 位 的 改变 要 花费 超过 20 毫 秒 的 时 间 ， 那 么 让 另 一 个 线程 代替 4 是 有 意义 的 ， 花费 的 
时 间 不 会 超过 20 毫 秒 。 
你 的 任务 是 实现 一 个 调度 器 ， 在 同样 的 环境 下 ， 它 所 花费 的 时 间 不 会 超过 预测 调度 器 所 花 
费时 间 的 两 倍 。 
习题 220. 假设 你 是 一 个 律师 ， 要 为 一 个 特别 的 观点 举 出 最 好 的 案例 。 你 将 如 何 辩论 下 面 的 观点 ; 
如 果 上 下 文 切换 的 代价 可 以 忽略 ， 那 么 处 理 器 不 需要 高 速 缓存 ， 至 少 对 于 那些 包含 大 量 线程 的 
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应 用 来 说 应 该 如 此 。 
额外 工作 : 评论 你 的 论证 。 481 
习题 221. 考虑 一 个 具有 16 个 缓存 块 的 直接 映射 高 速 缓存 ， 索 引 值 从 0~ 15， 每 个 缓存 块 包含 32 个 字 。 
“用 移 位 和 掩 码 操 作 来 解释 如 何 将 一 个 地 址 a 映 射 到 一 个 缓存 块 。 假 设 地 址 是 针对 字 而 不 是 字 节 
的 : 地 址 7 指 的 是 内 存 中 的 第 7 个 字 。 
“对 于 一 个 在 包含 64 个 字 的 数组 上 循环 4 次 的 程序 ， 计 算出 该 程序 的 最 好 和 最 坏 命中 率 。 
“对 于 一 个 在 包含 512 个 字 的 数组 上 循环 4 次 的 程序 ， 计 算出 该 程序 的 最 好 和 最 坏 命中 率 。 
习题 222. 芳 虑 一 个 具有 16 个 缓存 块 的 直接 映射 高 速 缓存 ， 索 引 为 0~ 15， 每 个 缓存 块 包含 32 个 字 。 
考虑 一 个 32 x 32 的 二 维 字 数组 a。 该 数组 在 内 存 中 被 排列 为 a[0, 0] 的 下 一 个 元 素 是 a[0, 1], 
以 此 类 推 。 假 设 该 高 速 缓存 初始 为 空 ， 但 a[0, 0] 被 映射 到 0 号 缓存 块 的 第 一 个 字 。 
考虑 下 面 的 列 优 先 遍历 : 


int sum = 0; 
for (int i = 0; i < 32; i++) { 
for (int j = 0; j < 32; j++) { 
sum += a[i,j]; // 2nd dim changes fastest 
} 
} 


以 及 下 面 的 行 优先 遍历 : 

int sum = 0; 

for (int i = 0; i < 32; i++) { 

for (int j = 0; j < 32; j++) { 
sum += a[j,i]; // Ist dim changes fastest 

} 

比较 两 次 遍历 的 缓存 缺失 个 数 ， 假 设 最 早 的 缓存 块 被 最 先 替 换 。 
习题 223. 在 缓存 一 致 性 协议 MESI 中 ， 区 分 独占 和 修改 模式 的 优点 是 什么 ? 

区 分 独占 和 共享 模式 的 优点 是 什么 ? 
习题 224. 实现 图 B-1 和 图 B-2 中 展示 的 测试 -设置 和 测试 -测试 -设置 锁 ， 在 多 处 理 器 上 测试 它们 的 

相对 性 能 ， 并 分 析 结 果 。 482 
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concurrent objects (复合 的 可 线性 化 性 ,并 发 对 象 )， 
57-58 
Concrete representation, concurrent reasoning (B 
体 表 示 ， 并 发 推理 ) 198 
Concurrency (并 发 性 ) 
concurrent objects (并 发 对 象 ) 45-48 
reasoning (推理 ) ，198-200 
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Concurrent algorithm (并 发 算法 ) 
challenges (挑战 )，15 
definition (#32), 2 
Concurrent closed-addressing schemes creators (并 
发 封 六 地 址 策略 ,生成 器 ) 325 
Concurrent Cuckoo hashing，definition and 
implementation (并 发 Cuckoo 哈 希 , 定 义 和 
实现 ) 318-322 
Concurrent heap (并 发 堆 ) 
overview (综述 ) 357-358 
structure and implementation (结构 和 实现 )， 
358-363 
Concurrent objects (并 发 对 象 ) 
compositional linearizability (复合 的 可 线性 化 
性 )，57-58 
concurrency (并 发 )，45-48 
correctness (正确 性 )，45-48 
dependent progress conditions (相关 演进 条 件 )， 
60-61 
formal definitions (形式 化 定义 )，55-57 
linearizability (可 线性 化 性 )，54-55, 57 
nonblocking property ( 非 阻 塞 特性 )，58-59 
progress conditions (演进 条 件 )，59-60 
致 性 )，49-51 
sequential consistency (顺序 一 致 性 )，51-54 
sequential objects (顺序 对 象 )，48-49 
Concurrent priority queues, implementation (并 发 
优先 级 队列 ， 实 现 ) ，351-352 
Concurrent program (并 发 程序 ) 
definition (#32), 2 
synchronization universality hierarchy (同步 操 
作 的 通用 层次 结构 ) 126 
Concurrent shared memory computing, definition 
(并 发 共享 存储 器 计算 ， 定义 )，71 
Concurrent skiplists, overview (FRIR, WÈ), 


quiescent consistency (静态 一 


348 
Concurrent timestamping, Lock class (并 发 时 间 惟 ， 
Lock 类 ) ，34 


Condition field, bounded partial queues (条 件 域 ， 
部 分 有 界 队 列 ) ，225 
Conditions objects (Conditions 对 象 ) 
interface (接口 )，180 
interrupts (FHT), 179 
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LockedQueue class (LockedQueue 类 )，182 
lost wakeups (唤醒 丢失 )，181-183 
usage example (范例 用 法 )，179-180 
Consensus numbers (一 致 数 ) 
definition (定义 )，100 
interface and definitions (接口 和 定义 )，100-101 
states and valence (状态 和 价 )，101-103 
Consensus object (一 致 性 对 象 ) 
interface (#20), 100 
lock-free universal construction (无 锁 通 用 构 
造 )，126-130 
universality definition (通用 性 定义 )，126 
wait-free universal construction (无 等 待 通 用 构 
造 )，130-136 
Consensus synchronization problem (一 致 同步 问 
题 ) 
atomic register solution (原子 寄存 器 方案 )， 
103-105 
Common? registers (Common2 寄 存 器 ) 114- 
116 
consensus protocols (一 致 性 协议 )，106 
definition (定义 )，100 
FIFO queues (先进 先 出 队列 ) 106-109 
Consenus protocols, generic (一 致 性 协议 ， 通 用 )， 
106 
Consistency, software transactional memory (一 致 
性 ， 软 事务 内 存 ) ，428-429 
Consumers (消费 者 ) 
naive synchronous queue (基本 同步 队列 ) 237 
pools (#4), 223 
Contention (4/4) 
definition (#2), 147 
high and low (高 和 低 )，147 
LockFreeStack, 248 
Contention manager (和 争 用 管理 器 ) 
greedy and karma 〈 贪 禁 和 因果 ) ，448 
implementation (实现 ) 433 
software transactional memory ( 软 事务 内 存 )， 
431-433 
Context switch, definition (上 下 文 切换 ， 定 义 )， 
472 
Convoying, in locking (转让 ， 加 锁 ) 417 
Coordination protocol (OR Protocol),definition ( 协 


作协 议 ， 定 义 ) 6 
Copyable class, interface (Copyable 类 ， 接 口 )， 
430 


Correctness (正确 性 ) 
bitonic counting network ( 双 调 计数 网 ) ，276- 
278 
compositional (复合 )，51 
concurrent objects (并 发 对 象 ) 45-48 
Merger class (Merger 类 )，277 
Correctness arguments, atomic snapshots (正确 性 
论据 ， 原 子 快 照 ) 90-93 
Counters (计数 器 ) 
definition (定义 )，22 
quiescient consistency (静态 一 致 性 )，269-270 
as shared counter implementation (作为 共享 计 
数 器 实现 ) ，4-5 
Counting, shared (计数 ， 共 享 )，259-260 
Counting networks (计数 网 ) 
basic concepts (基本 概念 )，270 
bitonic ( 双 调 )，272-278 
components (组 件 )，270-273 
invention (发 明 )，292 
performance (性 能 )，280-281 
periodic (周期 )，278-280 
pipelining (流水 线 )，280-281 
Covering state, Lock algorithm (覆盖 状态 ，Lock 
算法 ) 38,40 
Critical-path length, parallelism (关键 路 径 长 度 ， 
并 行 )，376-377 
Critical sections (临界 区 ) 
as BackoffLock problem (BackoffLock 问 题 )， 
149 
Java concepts (Java 要 念 ) 456 
in mutual exclusion (H Je), 22-24 
C# construct concepts (C# 构 造 概 念 ) 
creators (生成 器 )，466 
monitors ( 管 程 )，461-462 
thread-local objects (线程 本 地 对 象 )，462-463 
threads (线程 ) ，460-461 
Cuckoo hashing (Cuckoo 哈 希 ) 
creators (生成 器 ) 325 
definition and implementation (定义 和 实现 )， 
316-318 
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DAG (无 环 有 向 图 )， 参 见 Directed acyclic graph 
Data, and memory (数据 和 内 存 ) ，473 
Data structure design (数据 结构 设计 ) 
dual data structures (双重 数据 结构 ) 239-241 
SkipList class (SkipList 类 )，330 
Deadlock ( 死 锁 ) 
avoidance (避免 ) 417-418 
FineList class (FineList 类 )，204 
freedom from deadlock (无 死 锁 ) 24 
software transactional memory ( 软 事务 内 存 )， 
431 
unbounded total queue (无 界 全 局 队列 ) 230 
Deadlock-freedom property (无 死 锁 特 性 ) 
definition (定义 ) 8 
as dependent progress condition (相关 演进 条 


te), 60 
Filter lock (Filter4i{), 31 
Decision value, consensus numbers (决策 值 ， 一 致 
数 )，101 


Delegate, C# concepts (委托 ，C# 概 念 ) 460 
DEQueue ( 双 端 队列 )， 参 见 Double-ended queue 
Deschedule, threads (退出 调度 ， 线 程 ) 472 
DiffractingBalancer class (Diffracting- 
Balancer 类 ) 
implementation (实现 ) 284 
Diffracting trees (衍射 树 ) 
basic concept (基本 概念 ) ，282 
DiffractingBalancer,284 
implementation (实现 ) 285 
performance (性 能 ) ，285 
Prism, 283-284 
Directed acyclic graph (DAG, 无 环 有 向 图 ) 
creators (生成 器 ) ，391 
definition (#32), 375 
Fibonacci sequence ( 斐 波 那 契 序列 ) 375-376 
steps (479%), 380 
Direct mapped cache, definition (直接 映射 高 速 组 
H, Æ), 474 
Dirty, definition (J, Æ X), 478 
Disjoint-access-parallelism (不 相交 的 并 行 访问 ) 
definition (定义 )，299 


Dissemination barrier, creators (分 散 式 障碍 ， 生 
成 器 ) ，408 

Distributed coordination, overview (分 布 式 协作 ， 
EGR), 291-292 

Distribution phase, CombiningTree (分 布 阶段 ， 


组 合 树 ) ，267 
Doorway section, in Lock class (门廊 区 ，Lock 类 ) ， 
31 


Double-checked locking (双重 校 验 上 锁 ) 
in Java memory model (在 Java 存 储 器 模型 中 )， 
61-62 
and memory consistency (内 存 一 致 性 )，479 
Double-ended queue (DEQueue, 双 端 队列 ) 
bounded work-stealing (有 界 工 作 窃取 ) ，382- 
386, 391 
unbounded work-stealing (无 界 工作 窃取 ) ， 
386-388, 391 
work stealing (工作 窃取 ) 380-389 
Down state, balancers (向 下 状态 ， 平 衡器 ) ，271 
Dual data structures (双重 数据 结构 ) 
definition (定义 )，239 
implementation (实现 )，239-241 
reservation (保留 )，238-239 


Dynamic Software Transactional Memory 
algorithm, creators (动态 软 事 务 内 存 ， 算 

法 ， 生 成 器 ) ，448 
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Elimination, LockFreeStack (消除 ， 无 锁 栈 )， 
248-249 
Elimination array, implementation (消除 数组 ， 实 
现 )，251-252, 255 
EliminationBackoffStack class (Elimination- 
BackoffStack#) 
basic concept (基本 概念 ) 249 
efficiency (效率 ) 255 
elimination array (消除 数组 ) 251-254 
lock-free exchanger (无 锁 交 换 机 ) ，249-251 
methods (方法 ) 253 
structure (结构 ) 248 
EventListener class, incorrect example (EventListener 
类 ， 错 误 例 子 ) 64 
Events, in state machine (事件 ， 状 态 机 ) 21 
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Exclusive state, cache coherence (ERRE, BT 
一 致 )，446, 475-476 
Executor service, definition (执行 者 服务 ， 定 义 )， 
371 
Expected value, compareAndSet()Operation (期 
tate, compareAndSet()##/E), 116,480 
Exponential backoff (指数 后 退 ) 
implementation (X), 149 
TTASLock algorithm (TTASLock 算 法 ) 147-149 
Extensible hashing, definition (可 扩展 哈 希 , 定义 )， 
300 


F 


Factory, Lock interface (工厂 ， 锁 接口 ) 178 
Fairness (公平 性 ) 
in mutual exclusion ( 互 斥 )，31 
pools ( 池 )，224 
Fair readers-writers lock (公平 的 读者 一 写 者 锁 ) 
fields ( 域 )，185 
fields and public methods ( 域 和 公共 方法 )， 
186 
inner read lock (内 部 读 锁 ) ，186 
inner write lock (APRS), 187 
False sharing ( 假 共 享 ) in ALock (在 ALock 中 )， 
152 
array-based locks (基于 数组 的 锁 ) 151 
occurrence (发 生 )，476 
Fault-tolerance, in mutual exclusion (容错 ,， 互 斥 )， 
9 
Fence, definition (栅栏 ， 定 义 ) 479 
Fibonacci sequence ( 斐 波 那 契 序列 ) 
definition (定义 ) 375 
directed acyclic graph (无 环 有 向 图 )，375-376 
FibTask class (FibTask 类 ) 
implementation (实现 ) 375 
FIFO queue, lock-based (先进 先 出 队列 ， 基 于 锁 
的 ) 45-48 
Filter lock (Filter 锁 ) 
in mutual exclusion (4 JR), 28-31 
as spin locks 〈 自 旋 锁 ) 141 
final fields, in Java memory model (final 域 ，Java 
存储 器 模型 ) 63-64 


Final state, consensus numbers (结束 状态 ， 一 致 


数 )，101 
FineGrainedHeap class (FineGrainedHeap 类 ) 
creators (生成 器 ) 366 
implementation (实现 ) 358-361 
overview (概述 ) 357-358 
structure (4#), 362 
Fine-grained synchronization ( 细 粒 度 同步 ) 
basic concepts (基本 概念 ) ，201-202 
definition (定义 )，195 
FineList class (FineList 类 ) 
deadlock ( 死 锁 ) ，204 
hand-over-hand locking (交叉 手 上 锁 ) ，204 
lock acquisitions (获取 锁 ) 203 
methods (方法 ) 202-203 
FIRST, CombiningTree, 264-265 
First-come-first-served ( 先 到 先 服务 ) 
Bakery lock algorithm (Bakery 锁 算法 ) ，31, 33 
definition (Æ X), 31 
First-in-first-out (FIFO， 先 进 先 出 ) 
for consensus problem (一 致 性 问题 ) ，106-108 
pool fairness (公平 性 的 了 地 )，224 
via Pthreads (通过 Pthreads ) ，466 
quiescent consistency (静态 一 致 性 ) 51 
sequential objects (顺序 对 象 ) 48-49 
FIRST status (FIRST 状 态 ) 
CombiningTree, 268 
definition (定义 )，261 
Frames, definition (框架 ， 定 义 ) 397 
Freedom from deadlock property, in Lock algorithm 
(无 死 锁 特 性 ， 锁 算法 ) ，24 


Freedom from starvation, in Lock algorithm (无 饥 


TK, BRE), 24 
Free list, for node recycling (空闲 链表 , 循环 结 点 )， 
233-234 


Free0bject class, structure (Free0bject 类 ， 结 
构 )，436-438 

Fully-associative caches, definition (全 关联 缓存 ， 
定义 )，448, 474 

Future interface, definition (Future 接 口 ， 定 义 )， 
371 
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Ghost variables, 参见 Auxiliary variables 


Global queue, in HCLHLock queue (全 局 队列 ， 
HCLHLockBA ïI), 168 
Global state, definition (全 局 状态 ， 定 义 ) 37 
Global threshold, BaseHashSet class (全 局 阔 值 ， 
BaseHashSet 类 )，301 
Granularity, and cache (粒度 ， 缓 存 ) 474 
Greedy (A4) 
contention manager ( 争 用 管理 器 ) 432 
schedule (调度 ) 379 
Greedy contention manager, creators (#{ 4&4 A 


理 器 ， 生 成 器 )，448 
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Hand-and-over-hand locking, FineList class ( 交 
叉 手 上 锁 ，FineList 类 )，204 
Handlers, software transactional memory (处 理 程 
序 ， 软 事务 内 存 ) 428 
Hardware concepts (硬件 概念 ) 
architectures (系统 结构 ) 477-479 
basic considerations (基本 考虑 ) 469-472 
cache-conscious programming (高 速 缓存 的 程序 
设计 问题 ) 476-477 
caches (缓存 ) 473-474 
coherence (一 致 ) 474-476 
interconnect ( 互 连 )，472-473 
memory ( 主 存 ) ，473 
processors and threads (处 理 器 和 线程 ) 472 
spinning ( 自 旋 )，476 
synchronization instructions (同步 指令 )，480- 
481 
Hardware transactional memory 
内 存 ) 
cache coherence (缓存 一 致 ) ，446-447 
enhancements (改进 ) ，447-448 
first proposal (第 一 次 提出 ) 448 
overview (概述 ) ，445-446 
transactional cache coherence (事务 缓存 一 致 
PE), 447 
Hash function, definition ( 哈 希 函数 ， 定 义 ) 300 
Hashing, definition ( 哈 希 ， 定 义 ) 299 
Hash sets ( 哈 希 集 ) 
closed-address (封闭 地 址 ) 300-302 
definition (Æ X), 299-300 
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resizing (调整 ) 305 
HBOLock class, implementation (HBOLock 类 ， 实 
现 )，168 
HCLHLock queue (HCLHLock 队列 ) 
acquisition and release (获得 和 释放 ) ，173 
components (组 件 ) 168 
fields and constructor ( 域 和 构造 国 数 ) 169 
global queue 〈 全 局 队列 ) 171 
inner QNode class (内 部 QNode 类 ) ，169 
methods (方法 ) 170, 172 
Head, definition ( 头 部 ， 定 义 ) 224 
Hierarchical backoff lock, implementation (层次 后 
退 锁 , 实现 ) ，167-168 
Hierarchical CLH queue lock, design (层次 CLH 队 
列 锁 ， 设 计 )，168-172 
Hierarchical locks, definition (层次 锁 ， 定 义 )， 
167 
High contention, definition (高 争 用 ， 定 义 ) 147 
Hit rate, and cache (命中 率 ， 缓 存 ) 474 
Hit ratio, and cache (命中 率 比 ， 缓 存 ) 474 
Hits, in cache (命中 ， 缓 存 ) ，474 
Hold, locks 〈 持 有 ， 锁 ) 178 
Hot spot, definition (热点 ， 定 义 ) 259-260 
HTM, 参见 Hardware transactional memory 


IDLE, CombiningTree, 264 
Idle step, scheduler (空闲 步 ， 调 度 程序 ) 379 
Inactive thread, termination detection barrier (4-75 
动 线程 ， 终 止 检测 障碍 ) 405 
Initial state, consensus numbers (初始 状态 ， 一 致 
数 )，101 
Inner classes (内 部 类 ) 
anonymous (匿名 )，426 
definition (定义 )，183 
tree nodes ( 树 结 点 ) 402 
Inner read lock (内 部 读 锁 ) 
fair readers-writers lock (公平 的 读者 一 写 者 锁 ， 


187 
simple readers-writers lock (简单 的 读者 一 写 者 
锁 ) ，184 


Inner write lock (内 部 写 锁 ) 
fair readers-writers lock (公平 的 读者 一 写 者 锁 )， 
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187 
simple readers-writers lock (简单 的 读者 一 写 者 

锁 ) ，185 

In-place array sorting, function (内 置 数 组 排序 ， 
国 数 ) 288 

Instantaneous events, in mutual exclusion (瞬时 事 
te, AR), 22 

Interconnect, hardware concepts ( 互 连 , 硬件 概念 ) ， 
471, 472-473 


Interference (干扰 ) 
concurrent reasoning (并 发 推理 )，198 
optimistic synchronization (乐观 同步 )，207 
Interrupts (中 断 ) 
Conditions objects (Conditions 对 象 )，179 
definition (7X), 9 
Invalid state, cache coherence( 无 效 状 态 ， 缓 存 一 
致 ), 446, 475-476 
Invariants, concurrent reasoning (不 变量 ， 并 发 推 
理 )，198 
Invocation events (调用 事件 ) 
concurrent objects (并 发 对 象 ) 56 
lock-free universal algorithm (通用 无 锁 算法 ) ， 
127 
and register space (寄存 器 空间 ) 76 
Irreflexive, timestamps ( 反 自 反 的 ， 时 间 惟 )，34 
Items (数据 项 ) 
hash sets ( 哈 希 集 )，300 
priority queue (优先 级 队列 )，351 
PrioritySkipList class (PrioritySkipList 
类 )，363 
set definition (集合 定义 ) 196 
software transactional memory ( 软 事务 内 存 )， 
426 
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Java construct concepts (Java 构 造 概念 

creator (生成 器 )，466 

monitors ( 管 程 )，454-458 

thread-local objects (本 地 线程 对 象 )，458-459 

threads (线程 )，453-454 

yielding and sleeping (屈从 和 睡眠 )，458 
Java memory model (Java 存 储 器 模型 ) 

basic principles (基本 原则 ) ，61-62 


final fields (final 域 ) 63-64 
locks and synchronized blocks ( 锁 和 同步 块 )， 
62-63 
volatile fields (volatile 域 )，63 
Join (连接 ) 
C# constructs (C# 构 造 )，460 
Join, Java threads (连接 ，Java 线 程 )，454 
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Karma contention manager (Karma 和 争 用 管理 器 ) 
characteristics (特性 ) ，432 
creators (生成 器 ) 448 
Kernel maps, function ( 核 映 射 ， 国 数 ) 378 
k-way set associative, caches (k 级 组 相 联 ， 缓 
存 ) ,474 


Labels (标志 ) 
Bakery lock algorithm (Bakery 锁 算法 )，32 
Timestamps (时 间 惟 ) as, 34 
Last-in-first-out (LIFO), StackT class (后 进 先 出 ， 
StackT 类 ) 245 
Latency, definition (延迟 ， 定 义 ) 259 
Layer network, implementation (Layer 网 实现 )， 
279-280 
Layout, distributed coordination (布局 ， 分布 式 协 
作 )，292 
Lazy 〈 情 性 ) 
PrioritySkipList class (PrioritySkipList 
类 )，363 
unbounded lock-free queue (无 锁 的 无 界 队 列 ) , 
231-232 
LazyList class (LazyList 类 ) 
fields ( 域 ) ，214 
linearizability (可 线性 化 性 ) ，212 
methods (方法 ) ，209-210 
validation (确认 )，209, 211 
LazySkipList class (LazySkipList 类 ) 
creators (生成 器 )，348 
implementation (实现 )，333-337, 339 
overview (概述 )，331-333 
Lazy synchronization (惰性 同步 ) 
advantages (优点 )，213 


basic concepts (基本 概念 ) 208-209 
creators (生成 器 ) 219 
definition (ŒX), 196 
linearization (线性 化 ) 211-212 
methods (方法 ) 209-210 
Levels, in Filter lock (级 别 ，Filter 锁 ) 28 
Line, cache coherence ( 线 ， 缓 存 一 致 ) ，446 
Linearizability (可 线性 化 性 ) 
applications (应 用 ) 45 
concurrent objects (并 发 对 象 ) 54-55, 57 
concurrent priority queues (并 发 优先 级 队列 )， 
351 
concurrent reasoning (并 发 推理 )，199 
first definition (首次 定义 )，93 
LazyList class (LazyList3&), 212 
wait-free universal construction (通用 的 无 等 待 
构造 )，133 
Linearization points (线性 化 点 ) 
concurrent objects (并 发 对 象 )，55 
fine-grained synchronization ( 细 粒 度 同 步 )， 
204 
LazyList class (LazyList 类 )，211 
Linear speedup, parallelism (线性 加 速 比 , 并 行 度 )， 
377 
Linked lists (链表 ) 
coarse-grained synchronization ( 粗 粒 度 同步 )， 
200-201 
concurrent reasoning (并 发 推理 )，198-200 
early work (早期 工作 )，219 
fine-grained synchronization ( 细 粒 度 同步 )， 
201-205 
lazy synchronization ( 情 性 同步 ) 208-213 
list-based sets (基于 链表 的 集合 ) ，196-198 
lock-free list (无 锁链 表 ) ，213-218 
optimistic synchronization (乐观 同步 ) 205- 
208 
overview (概述 ) 195-196 
List-based sets, basic concepts (基于 链表 的 集合 ， 
基本 概念 ) 196-198 
List nodes (链表 结 点 ) 
bounded partial queue (有 界 部 分 队列 ) 227 
lock-free stack (Aik), 247 
unbounded lock-free queue (无 锁 的 无 界 队 列 )， 
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230 
Liveness property, definition (活性 ， 定 义 ) 2 
Load-linked-store-conditional (LL/SC, 链接 加 载 / 
条 件 存 储 ) 
and ABA problem (ABA 问 题 ) 237 
hardware synchronization (硬件 同步 )，480 
origins (起 源 )，136 
Loads (加 载 ) 
definition (定义 )，37 
Lock algorithm bounds (有 界 Lock 算 法 ) 37 
in registers (在 寄存 器 中 ) ，72 
Locality, and cache (局 部 性 ， 缓 存 ) ，474 
Local spinning, definition (本 地 自 旋 ， 定 义 )， 
147 
Local state, definition (局 部 状态 ， 定 义 ) ，37 
Lock-based atomic object (基于 锁 的 原子 对 象 ) 
consistency (一 致 性 ) ，440-441 
overview (概述 ) ，439-440 
structure details (结构 细节 ) 441-445 
Lock-based concurrent skiplist (基于 锁 的 并 发 跳 
表 ) 
algorithm (算法 ) 333-339 
overview (概述 ) ，331-333 
Lock-based hash table, resizing (基于 锁 的 哈 希 表 ， 
调整 ) 305 
Lock class (Lock 类 ) 
Interface (接口 )，178-179 
lower bounds (下 界 )，37-40 
for mutual exclusion ( 互 斥 )，141-144 
timeout (超时 )，157 
timestamping (时 间 惟 )，34 
Lock coupling ( 锁 耦 合 ) 
definition (#32), 202 
invention (4A), 219 
LockedQueue class, with locks and conditions 
(LockedQueue 类 ， 锁 和 条 件 ) 182 
Lock-free concurrent skiplist (无 锁 并 发 跳 表 ) 
algorithm (算法 )，341-348 
overview (概述 )，339-341 
Lock-free exchanger (无 锁 交 换 机 ) 
basic function (基本 功能 ) ，249 
implementation (实现 ) 250 
Lock-free hash set (无 锁 哈 希 集 ) 


370 R 5l 


basic concept (基本 概念 ) 309 
BucketList class (BucketList%), 312-313 
implementation (实现 ) 313-315 
recursive initialization (递归 初始 化 ) 316 
recursive split-ordering (递归 有 序 划 分 ) 309- 
312 
LockFreeHashSet class, implementation (Lock- 
FreeHashSet 类 ， 实 现 ) 313-315 
LockFreeList class, methods (LockFreeList 类 ， 
方法 ) 217-219 
Lock-free lists (无 锁链 表 ) 
abstraction maps (抽象 映射 ) ，216 
AtomicMarkableReference, 213-215 
basic concepts (基本 概念 ) 213-214 
methods (X), 217-219 
Window class (Window), 216 
Lock-free method (无 锁 方 法 ) 
concurrent objects (并 发 对 象 )，60 
concurrent reasoning (并 发 推理 )，199 
definition (定义 )，99 
LockFreeQueue class (LockFreeQueue 类 ) 
creators (生成 器 ) 241 
list node (链表 结 点 ) 230 
methods (方法 ) 230-231, 419-420 
LockFreeQueueRecycle class,implementation 
(LockFreeQueueRecyc1e 类 ， 实 现 ) 236 
LockFreeSkipList class (LockFreeSkipList 类 ) 
call structure (调用 结构 )，340 
creators (生成 器 )，348-349 
implementation (实现 )，342-344, 346-347, 349 
overview (概述 )，339 
LockFreeStack class (LockFreeStack 类 ) 
creators (生成 器 ) 255 
elimination (BR), 248-249 
implementation (实现 ) 246-247 
structure (449), 246 
Lock-free universal construction (通用 的 无 锁 构 


造 ) 


algorithm (算法 ) 128 
execution( 执 行 ), 129 
generic sequential object (一 般 顺 序 对 象 ) ， 
126-127 
Locking (上 锁 ) 


double-checked, in Java memory model (双重 校 
验 ，Java 存 储 器 模型 ) 61-62 
execution (执行 )，47 
hand-and-over-hand locking, FineList class 
(交叉 手 上 锁 ，FineList 类 )，204 
problems (问题 ) ，417-418 
LockObject class, implementation (LockObject 类 ， 
实现 ) ，23, 440-445 
LockOne class, for mutual exclusion (LockOne 类 ， 
AJR), 25-26 
Lockout-freedom property (无 锁 特 性 ) 
definition (定义 )，8-9 
as dependent progress condition (相关 演进 条 
件 )，60 
in Lock algorithm (Lock 算法 )，24 
in producer-onsumer problem (生产 者 一 消费 者 
问题 )，10-11 
Locks ( 锁 ) 
acquires (获取 )，178 
array-based locks (基于 数组 的 锁 )，150-152 
backoff lock (后 退 锁 ) 167-168 
Bakery lock (Bakery 锁 ) ，31-33, 39, 141 
block ( 块 ) 178 
C# constructs 〈C# 构 造 ) 461 
CLH queue lock (CLH 队 列 锁 ) 151, 153-154, 
168-172 
composite lock (复合 锁 ) 159-160, 165-167 
definition (Æ X), 22 
fair readers-writers lock (公平 的 读者 一 写 者 锁 )， 
186-187 
Filter lock (Filter 锁 )，28-31, 141 
hardware concepts (硬件 概念 ) ，469 
hierarchical backoff lock (层次 后 退 锁 ) 167- 
168 
hierarchical CLH queue lock (层次 CLH 队 列 锁 )， 
168-172 
hierarchical locks (层次 锁 ) ，167 
hold ( 持 有 )，178 
inner read lock (内 部 读 锁 ) ，184, 186 
inner write lock (内 部 写 锁 ) 185,187 
interface (接口 )，23 
Java concepts (Java 概念 ) 456 
in Java memory model (Java 存 储 器 模型 ) 62-63 


lock-based atomic object (基于 锁 的 原子 对 象 ) ， 
439 
MCS queue lock (MCS 队 列 锁 ) ，154-156 
monitor locks ( 管 程 锁 ) ，178-179, 181, 189 
Peterson lock (Peterson 锁 ) ，27-28, 39, 142- 
143 
queue locks (队列 锁 ) 149-159 
readers-writers lock (读者 一 写 者 锁 ) 183-187 
read lock ( 读 锁 ) ，183 
reentrant lock (可 重 入 锁 ) 187-189 
releases (释放 )，178 
simple readers-writers lock (简单 的 读者 一 写 者 
锁 ) 183-185 
spin (Hie), 178 
test-and-set locks (测试 一 设置 锁 ) 144-146 
write lock ( 写 锁 ) 184 
Lock striping, hash sets ( 锁 分 片 ， 哈 希 集 )，304 
LockTwo class, for mutual exclusion (LockTwo 类 ， 
AJR), 26-27 
Logical buckets, lock-free hash set (Z440, Wi 
哈 希 集 )，309 
Logical fields, obstruction-free atomic object (1% 
辑 域 ， 无 干扰 原子 对 象 ) 435 
Logical removal (逻辑 删除 ) 
lazy synchronization (惰性 同步 )，196, 208 
PrioritySkipList class (PrioritySkipList 
HE), 363 
Loser thread, Common? register (Loser 线 程 ， 
Common2 寄 存 器 ) 114 
Lost-wakeup problem (唤醒 丢失 问题 ) 
Conditions objects (Conditions 对 象 )，182- 
185 
example (实例 ) ，183 
Java concepts (Java 概 念 ) 458 
Low contention, definition ( 低 争 用 ， 定 义 ) 147 
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Main cache, hardware transactional memory ( 主 组 
存 ， 硬 事务 内 存 ) 448 

Main memory, hardware concepts ( 主 存 ， 硬 件 概 
Ax), 471,473 

Matrix class, implementation (Matrix 类 ， 实 现 )， 
372 
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Matrix multiplication, parallel, 参见 Parallel matrix 
multiplication 
MatrixTask class, implementation (MatrixTask2, 
实现 ) 373-374 
MCSLock class, creators (MCSLock 类 ， 生 成 器 ) ， 
174 
MCS queue lock (MCS 队 列 锁 ) 
fields and constructor ( 域 和 构造 图 数 ) 154- 
155 
lock acquisition and release (获取 和 释放 锁 ) , 
156 
methods (方法 ) 155 
QNode, 155-156 


Memory, hardware concepts (内 存 ， 硬件 概念 ) ， 
471, 473 

Memory barriers, definition (内 存 路 障 ， 定 义 )， 
53, 144, 479 


Memory consistency models (内 存 一 致 性 模型 ) 
relaxed (松弛 的 )，478-479 
survey (综述 )，481 
Memory contention (内 存 争 用 ) 
definition (定义 )，474 
and shared counting (共享 计数 )，260 
Memory fence (内 存 栅栏 ) ， 参 见 Memory barriers 
Memory locations, lower bounds (内 存 地 址 ,下 界 )， 
37-40 
Memory reclamation, and ABA problem (内 存 回 
收 和 ABA 问 题 ) 233-237 
Merger class (Merger 类 ) 
Correctness (正确 性 ) 277 
software bitonic counting network (软件 双 调 计 
数 网 ) ，275 
MERGER network, logical structure (MERGER 网 ， 
逻辑 结构 ) , 273 
MESI protocol (MESI 协 议 ) 
Intel processors (Intel 处 理 器 )，481 
state transition examples (状态 转换 实例 ) ，475 
Metalock, 174 
Method calls (方法 调用 ) 
concurrent objects (并 发 对 象 )，56 
definition (定义 )，48 
quiescent consistency (静态 一 致 性 )，49-50 
and register space (寄存 器 空间 ) ，76 
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RMW registers (RMW 寄 存 器 ) 112-113 
Misses, in cache (缺失 ， 高 速 缓存 ) 474 
MMThread class, implementation (MMThread 类 ， 
实现 ) ，370 

Modified state, cache coherence (Modified 状态 ， 
缓存 一 致 性 ) 446, 475-476 

Monitor locks ( 管 程 锁 ) 

definitions (732), 178-179 

execution (#47), 180-181 

invention (48H), 190 
Monitors ( 管 程 ) 

creators (生成 器 ) 466 

as C# constructs (〈(C# 构 造 ) 461-462 

definition (定义 ) 177,182 

as Java constructs (Java 构 造 ) 454-458 
MRMW, 参见 Multi-reader 
multiple-writer (MRMW) 

MRSW, 参见 Multi-reader single-writer (MRSW) 

multiCompareAndSet, pseudocode (multi- 
CompareAndSet, {4ftf%), 419 

Multi-core architecture, definition (多 核 结构 ， 定 
X), 477-479 

Multicores, programming challenges (4%, ， 编 程 
挑战 )，1 

Multiple assignment objects, basic Concept (多 重 
赋值 对 象 ， 基 本 概念 ) 110 

Multiprogrammed environment, work distribution 
(多 道 程序 环境 ， 工 作 分 配 ) 381-382 

Multi-reader multiple-writer (MRMW， 多 读者 一 
多 写 者 ) 

atomic register (原子 寄存 器 ) ，85-87 

construction (构造 )，93 
Multi-reader single-writer (MRSW， 多 读者 一 单 写 

者 ) 
atomic register (原子 寄存 器 ) 82-85 
Boolean register (布尔 寄存 器 ) ，77-78 
construction (构造 ) 93 
and register space (寄存 器 空间 ) 73 
regular Boolean register (规则 布尔 寄存 器 )， 
78-79 

regular M-valued register (MM- 值 规则 寄存 器 )， 
79-81 

safe registers (安全 寄存 器 )，78 


write order ( 写 顺 序 ) 76 
Multi-threaded architecture, definition (多 线程 结 
构 ， 定 义 ) 477-479 
Mutexes, in Pthreads (Pthreads 中 的 互 斥 ) 464- 
465 
Mutual exclusion (4 JR) 
Bakery lock algorithm (Bakery 锁 算法 ) 31-33 
bounded timestamps (有 界 时 间 惟 )，33-36 
and communication (通信 )，9-10 
in concurrent programming (并 发 编程 )，15 
critical sections (临界 区 )，22-24 
definition (定义 ), 6 
fairness (公平 性 )，31 
fast path algorithm (快速 路 径 算法 )，43 
Filter lock (Filter 锁 ) 28-31 
Java concepts (Java 概 念 )，456 
LockOne class (Lock0ne 类 )，25-26 
LockTwo class (LockTwo 类 )，26-27 
number of locations (存储 单元 数 )，37-40 
Peterson Lock (Peterson 锁 ) 27-28 
in producer-consumer problem (生产 者 -消费 者 
问题 ) 10-11 
properties (特性 ) ，8-9 
real-world approach (现实 方法 ) 141-144 
and register space (寄存 器 空间 ) 73 
time (时 间 )，21-22 
M-valued register (M- 值 寄存 器 ) 
definition (#32), 72 
regular MRSW (规则 MRSW ) 79-81 
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Naive synchronous queue (基本 的 同步 队列 ) 
basic concepts (基本 概念 )，237 
implementation (实现 )，238 
New version field, obstruction-free atomic object 
(新 版 本 域 ， 无 干扰 原子 对 象 )，435 
Node class (Node 类 ) 
CombiningTree, 262, 265-267 
implementation (实现 )，127 
LazySkipList class (LazySkipList%), 333, 
338 
StaticTreeBarrier class (StaticTree- 
Barrier), 405 


tree barriers ( 树 障碍 )，401-402 
Nodes ( 结 点 ) 
and free lists (空闲 链表 ) 233-234 
list-based (基于 链表 的 ) 197-198, 227, 230, 
247 
NUMA architecture (NUMA BSE), 472 
predecessor nodes (前 驱 结 点 ) ，171 
regular nodes (常规 结 点 ) 197 
sentinel nodes (哨兵 结 点 ) 197,225,311 
Nonblocking methods, definition (无 阻塞 方法 ， 定 
义 )，45 
Nonblocking progress, concurrent objects (无 阻塞 
演进 ， 并 发 对 象 ) 59 
Nonblocking property, concurrent objects (无 阻塞 
特性 ， 并 发 对 象 ) 58-59 
Nonblocking synchronization, definition (无 阻塞 
同步 ， 定 义 ) 196 
Non-transactional cache, hardware transactional 
memory ( 非 事务 缓存 ， 硬 事务 内 存 ) 448 
Nonuniform memory access (NUMA) architecture 
( 非 一 致 内 存 访 问 系统 结构 ) 
basic concepts (基本 概念 ) 472-473 
spinning ( 自 旋 ) 476 
North wires ( 北 线 ) 
counting networks (计数 网 ) 270 
periodic network (周期 网 ) 279 
Notify, Java concepts (通知 ，Java 概 念 ) 457 
NUMA, 参见 Nonuniform memory access (NUMA) 


architecture 


O 


Object, definition (WR, XL), 48 
Obstruction-free atomic object (无 干扰 原子 对 象 ) 
basis (基本 概念 )，448 
consistency (一 致 性 ) ，436-437 
operation details (操作 细节 ) ，437 
overview (概述 ) 435 
Obstruction-free property, as dependent progress 


condition 〈 无 干扰 特性 ， 相 关 演进 条 件 )， 


60 
Obstruction-free snapshot, collects (无 障碍 快照 ， 
采集 )，87-88 


0ddEven sorting network, design (0ddEven 排 序 网 ， 
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设计 ) 288 
Old version field, obstruction-free atomic object 
(《 旧 的 版 本 域 ， 无 干扰 原子 对 象 ) 435 
Open-addressed hash set, Cuckoo hashing (开放 地 
址 哈 希 集 ，Cuckoo 哈 希 ) 316-318 
Open addressing, definition (开放 寻 址 ， 定 义 )， 
300 
Operator, definition (接线 员 ， 定 义 )，455 
Operator thread, definition (接线 员 线 程 ， 定 义 )， 
455 
OptimisticList class (OptimisticList 类 ) 
implementation (实现 ) 205 
methods (方法 ) 206-207 
validation (验证 ) 208 
Optimistic synchronization (乐观 同步 ) 
basic concepts (基本 概念 ) 205 
class implementations (类 实现 ) ，205-207 
definition (72), 195 
validation (iF), 207 
Owner field, obstruction-free atomic Object 


(Owner 域 ， 无 干扰 原子 对 象 ) 435 
P 


Parallelism (并 行 性 ) 
analysis (分 析 )，375-378 
definition (定义 ), 1 
and shared counting (共享 计数 )，260 
Parallelization, realities (并 行 ， 现 实 )，13-14 
Parallel matrix multiplication (并 行 矩 阵 乘法 ) 
MatrixTask class (MatrixTask 类 )，373-374 
overview (概述 ) ，369-370 
Parallel programming, challenges (并 行程 序 设计 ， 


挑战 ) ，15 
Parallel sorting, basic concepts (并 行 排序 ， 基 本 
概念 ) ，286 


Partial method (部 分 方法 ) 
creators (生成 器 )，241 
pool( 池 ), 224 
Partial order, concurrent objects ( 偏 序 , 并 发 对 象 ) ， 
56 
Passive thread, in software combining (被 动 线程 ， 
软件 组 合 ) 260 
Pending (未 决 的 ) 
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invocation, concurrent objects (调用 ,并 发 对 象 ) ， 
56 
method calls (方法 调用 ) 50 
Performance (性 能 ) 
combiningTree, 269 
counting networks (计数 网 ) 280-281 
diffracting trees (衍射 树 ) 285 
hardware concepts (硬件 概念 ) 471 
Periodic counting networks (周期 计数 网 ) 
implementation (实现 ) 281 
software implementation (软件 实现 ) 279-280 
structure (结构 ) 278-279 
Persistent communication, and mutual exclusion 
(持续 通信 ， 互 斥 )，9 
Peterson lock (Peterson 锁 ) 
bounds (界限 )，39 
implementation (实现 ) ，142-143 
in mutual exclusion ( 互 斥 )，27-28 
PhasedCuckooHashSet class, implementation 
(PhasedCuckooHashSet 类 ， 实 现 ) 318- 
321 
Phases (阶段 ) 
computation organization (计算 组 织 )，397 
concurrent Cuckoo hashing (并 发 Cuckoo 哈 希 )， 
318 
Physical removal (物理 删除 ) 
lazy synchronization ( 情 性 同步 ) 196, 208 
PrioritySkipList class (PrioritySkipList 
#E), 363 
Pipelining, counting networks (流水 线 ， 计 数 网 )， 
280-281 
Pools ( 池 ) 
definition (定义 )，223 
parallel matrix multiplication (并 行 矩 阵 乘法 )， 
370 
queues (队列 ) ，224 
quiescently-consistent (静态 一 致 ) 269-270 
and shared counting (共享 计数 ) ，259 
termination detection barrier (终止 检测 障碍 ) , 
408 
varieties (变化 ) 223-224 
work stealing (工作 窃取 )，406-407 


Population-oblivious method, concurrent objects 


( 集 居 数 无 关 方 法 ， 并 发 对 象 ) 59 
Postcondition, sequential objects (后 置 条 件 ， 顺 序 


HR), 48 

Precedence graph, timestamps (前 趋 图 ， 时 间 玲 )， 
34 

Precedence relation, in mutual exclusion (前 趋 关 
A, ASR), 22 


Precombining phase, CombiningTree( 预 组 合 阶段 ， 
CombiningTree), 262 
Precondition, sequential objects (前 置 条 件 ， 顺 序 
对 象 )，48 
Predecessor nodes, HCLHLock queue (前 驱 结 点 ， 
HCLHLock 队 列 )，172 
Predecessor task, directed acyclic graph (前 驱 任 务 ， 
无 环 有 向 图 )，375 
Priority (优先 级 ) 
contention manager ( 争 用 管理 器 ) 432 
in priority queue (优先 级 队列 ) 351 
Priority inversion, in locking (优先 级 倒置 ， 上 锁 ) ， 


417 

Priority queues, definition (优先 级 队列 ， 定 义 )， 
351 

PrioritySkipList class (PrioritySkipList 
类 ) 


implementation (实现 ) 364 
overview (概述 ) ，363 
structure (结构 ) ，365 
Prism 
diffracting trees (衍射 树 ) 283 
distributed coordination (分 布 式 协作 )，291 
implementation (实现 )，284 
Probabilistic data structure, SkipList class (概率 
数据 结构 , SkipList 类 )，330 
Probe sets, concurrent Cuckoo hashing (测试 集 ， 
并 发 Cuckoo 哈 希 ) ，318 
Processors, hardware concepts (处 理 器 ,硬件 概念 )， 
471, 472 
Producer-consumer problem, example (生产 者 一 消 
费 者 问题 ， 例 子 )，10-11 
Producer-consumer property, in producer-consumer 
problem (生产 者 一 消费 者 特性 ， 生 产 者 一 
消费 者 问题 )，10-11 
Producers (生产 者 ) 


naive synchronous queue (基本 的 同步 队列 )， 
237 
pools ( 池 )，223 
Program correctness (or Correctness), definition 
(程序 正确 性 ， 定 义 )，2 
Program order, definition (程序 顺序 ， 定 义 )，52 
Program performance, definition (程序 性 能 ,定义 )， 
2 
Progress conditions (演进 条 件 ) 
concurrent objects (并 发 对 象 ) 59-60 


dependent, concurrent objects (相关 , 并 发 对 象 ) ， 


60-61 
Progress property, concurrent objects (演进 特性 ， 
并 发 对 象 ) 45 
Protocol state (协议 状态 ) 
bivalence and univalence (单价 和 二 价 )，102 
consensus numbers (一 致 数 )，101 
Pthreads 
basic functionality (基本 功能 ) 464 
implementation (实现 ) 467 
invention (发 明 ) 466 
thread-local storage (本 地 线程 存储 器 ) 465- 
466 
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QNode class (QNode 类 ) 
CLH queue locks (CLH 队 列 锁 ) ，153 
CompositeLock class (CompositeLock 类 )， 
161 
HCLHLock queue (HCLHLock 队 列 )，169 
MCS queue lock (MCS 队 列 锁 )，155-156 
SynchronousDualQueue class (Synchronous- 
DualQueue2#E), 239 
timeout lock (AY PR i), 157-158 
Queue locks (队列 锁 ) 
array-based (基于 数组 的 ) 150-151 
CLH, 151-154 
MCS, 154-157 
overview (概述 ) 149-150 
with timeouts (#81), 157-159 
Queues (队列 ) 
array-based bounded priority queues (基于 数组 
的 有 界 优先 级 队列 ) 352-353 
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BoundedDEQueue class (BoundedDEQueue 类 ) , 


383-385 

bounded partial queue (部 分 有 界 队 列 ) 225- 
229 

BoundedQueue class (BoundedQueue%), 225- 
227 


bounded-range priority queue (有 界 范 围 的 优先 
级 队列 ) 351-353 
bounded transactional queue (有 界 事务 队列 )， 


423 

CLH queue lock (CLH 队 列 锁 ) 151, 153-154, 
168-172 

concurrent priority queues (并 发 优先 级 队列 , 
351-352 


FIFO queue (FIFOBA%I|), 45-48 

global queue (全 局 队列 ) ，168 

HCLHLock queue (HCLHLock 队 列 ) 168-173 

hierarchical CLH queue lock (层次 CLH 队 列 锁 )， 
168-172 

LockedQueue class (LockedQueue 类 )，182 

lock-free queue (无 锁 队 列 ) ，241 

LockFreeQueue class (LockFreeQueue 类 )， 
230-231, 419-420 

LockFreeQueueRecycle class (LockFree- 
QueueRecyclezk), 236 

locking queue ( 锁 队 列 ) 47 

MCS queue lock (MCS 队 列 锁 ) ，154-156 

naive synchronous queue (基本 的 同步 队列 ) ， 
237-238 

pool fairness (公平 性 的 池 )，224 

priority queues (优先 级 队列 )，351 

SimpleTree priority queues (SimpleTree 优 先 
级 队列 )，353-354 

skiplist-based unbounded priority queues (基于 
跳 表 的 无 界 优先 级 队列 )，363-366 

SkipQueue class (SkipQueue 类 )，365-366 

SynchronousDualQueue class (SynchronousDualQueue 
类 )，239-240 

synchronous queue (同步 队列 )，237-238, 241 

SynchronousQueue class (SynchronousQueue 
类 )，238 

tree-based bounded priority queues (基于 树 的 有 
界 优先 级 队列 ) 353-355 
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unboundedDEQueue class (unboundedDEQueue 
3), 386-390 

unbounded heap-based priority queues (无 界 基 
于 堆 的 优先 级 队列 ) 357-363 

unbounded lock-free queue (无 锁 的 无 界 队 列 )， 
230-233 

UnboundedQueue class (UnboundedQueue2é), 
229 

unbounded-range priority queue (无 界 范围 的 优 
先 级 队列 ) 351 

unbounded total queue (完全 无 界 队 列 ) ，229- 
230 

unbounded transactional queue (无 界 事务 队列 )， 
422 

Quicksort algorithm, for sample sorting (快速 排序 
算法 ， 样 本 排序 ) 290 
Quiescent consistency (静态 一 致 性 ) 

applications (应 用 ) 45 

concurrent objects (并 发 对 象 ) 49-51 

concurrent priority queues (并 发 优先 级 队列 ) , 
351-352 

pools and counters ( 池 和 计数 器 ) 269-270 

vs. sequential consistency (顺序 一 致 性 ) 52-53 

shared counters (共享 计数 器 ) 270 


R 
Radix children, tree nodes (基数 个 儿子 ， 树 结 点 )， 
401 
Reachable, concurrent reasoning (可 达 的 ， 并 发 推 
理 )，199 


Readers-writers lock (读者 一 写 者 锁 ) 
basic concepts (基本 概念 ) 183 
fair lock (公平 锁 ) 185-187 
simple lock (简单 锁 ) ，184-185 
Readers-writers problem, example (读者 一 写 者 问 
题 ， 实 例 )，11-12 
Read lock, definition ( 读 锁 ， 定 义 )，183 
Read-modify-write (RMW) registers ( 读 一 改 一 写 寄 
存 器 ) 
Common? registers (Common2 寄存 器 ) 114- 
116 
methods (方法 ) 112-113 
shared counter implementation (共享 计数 器 实 


现 )，5-6 
source ( 源 )，117 
Read set, lock-based atomic object ( 读 集合 ， 基 于 
锁 的 原子 对 象 ) ，439 
Realistic multiprocessor scheduling, definitions and 
operation (现实 中 的 多 处 理 器 调度 ， 定 义 
和 操作 ) ，378-380 
Real-time order (实时 次 序 ) vs. sequential 
consistency (顺序 一 致 性 ) 53 
Rebalancing, definition (重新 平衡 ， 定 义 ) 329 
Recursive initialization, lock-free hash set (递归 初 
始 化 ， 无 锁 哈 希 集 )，316 
Recursive split-ordering, lock-free hash set (有 序 
划分 递归 ， 无 锁 哈 希 集 )，309-312 
Reentrant (可 重 入 ) 
BaseHashSet class (BaseHashSet2&), 301 
Conditions objects (Conditionsx#}®), 180 
Reentrant lock (可 重信 锁 ) 
definition (定义 )，187 
methods (方法 )，188 
Reference, BoundedDEQueue class (引用 Bounded- 
DEQueue 类 )，384 
Refinable concurrent Cuckoo hash set ( 细 化 并 发 
Cuckoo 哈 希 集 ) ，324-325 
RefinableCuckooHashSet class (Refinable- 
CuckooHashSet 类 )，324-325 
RefinableHashSet class implementation (Refi- 
nableHashSet 类 ， 实 现 ) 306-308 
resizing (可 调整 ) 305 
RegBoo1MRSWRegister class, implementation 
(RegBooIMRSWRegister2é, I), 79 
Registers (寄存 器 ) 
construction overview (构造 概述 )，77-78 
definition (定义 )，50,71,72 
and mutual exclusion (HJR), 73 
safe (#4), 74-75 
3D implementation space (3D 实 现 空间 ) 76 
write order ( 写 顺 序 ) 76 
RegMRSWRegister class, implementation (Reg- 
MRSWRegister2é, Sc), 80 
Regular nodes, list-based sets (规则 结 点 ， 基 于 链 
表 的 集合 ) ，197 
Regular registers (规则 寄存 器 ) 


Boolean MRSW (布尔 MRSW ) 78-79 
conditions (条 件 )，77 
definition (定义 )，75 
first definition (首次 定义 ) 93 
implementation considerations (实现 考虑 ) 75- 
76 
M-valued MRSW register (M- 值 MRSW 寄 存 器 )， 
79-81 
safe (#4), 75 
RelaxedLock, 174 
Releases (释放 ) 
CLHLock class (CLHLock 类 )，154 
definition (定义 ) 23 
HCLHLock lock (HCLHLock 锁 ) 173 
Java concepts _ (Java 概念) 456 
locks ( 锁 ) 178 
MCSLock class (MCSLock 类 )，156 
Reordering, and memory consistency ( 重 排序 ， 内 
存 一 致 性 ) ，479 
Replacement policy, and cache (替换 策略 ， 缓 存 )， 
474 
Representation invariant, concurrent reasoning (不 
变量 表示 ， 并 发 推理 ) 198-199 
Reservation object, dual data structures (保留 对 象 ， 
双重 数据 结构 ) 239 
Response events (响应 事件 ) 
concurrent objects (并 发 对 象 ) 56 
lock-free universal algorithm (通用 无 锁 算法 )， 
127 
and register space (寄存 器 空间 ) 76 
RESULT status (RESULT 状 态 ) 
CombiningTree, 267 
definition (定义 )，262 
Reverse tree barrier, implementation (翻转 树 障碍 ， 
实现 ) ，412-414 
RMW, 参见 Read-modify-write (RMW) registers 
Robustness, CombiningTree (健壮 性 ，Com- 
biningTree), 269 
ROOT status (ROOT 状态 ) 
CombiningTree, 265-266 
definition (#32), 262 
Runnable object, Java thread concepts (Runnable 


对 象 ，Java 线 程 概念 ) 453-454 


Safe (安全 的 ) 
registers (寄存 器 )，74-75 
regular register (规则 寄存 器 ) 75 
3afeBoo1MRSWRegister class, implementation 
(SafeBooIMRSWRegister2&, XIL), 78 
Safe registers (安全 寄存 器 ) 
first definition (首次 定义 ) 93 
MRSW, 78 
SRSW Boolean (SRSW 布 尔 ) 86 
Safety property, definition (安全 特性 ， 定 义 ) 2 
Sample sorting (样本 排序 ) 
original ideas (最 初 想法 ) ，293 
phases (阶段 ) 290-291 
Saturation, counting networks (饱和 ,计数 网 )， 
280 
Scan-and-label operations, timestamps (扫描 -标记 
HRE, HEZ), 34 
Scheduler (调度 程序 ) 
function ( 国 数 )，378 
greedy (贪心 )，379 
idle step (空闲 步 ) 379 
SECOND status (SECOND 状 态 ) 
CombiningTree, 268 
definition (定义 )，261 
Semaphores, definition and implementation (信号 
量 ,定义 和 实现 ) 189 
SenseBarrier class, constructor (感知 路 障 类 ， 构 
i FBX) 400 
Sense-Reserving barrier, implementation (语义 换 
向 障碍 ， 实 现 ) 399-400 
Sentinel nodes (哨兵 结 点 ) 
bounded partial queues (部 分 有 界 队 列 ) ，225 
list-based sets (基于 链表 的 集合 ) 197 
split-ordered hash set (有 序 划 分 哈 希 集 )，311 
Sequential bottleneck (顺序 瓶颈 ) 
LockFreeStack, 248 
and shared counting (共享 计数 ) ，259 
Sequential consistency (顺序 一 致 性 ) 
Applications (应 用 ) 45 
concurrent objects (FRIR), 51-54 
vs. quiescent consistency (静态 一 致 性 ) 52-53 
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vs. real-time order (实时 次 序 ) 53 
SequentialHeap class, implementation (Sequen- 
tialHeap%, Sci), 356-357 
Sequential objects (顺序 对 象 ) 
generic definition (一 般 定义 ) 127 
specifications (说 明 ) 48-49 
SequentialRegister class, implementation 
(SequentialRegister3é, L), 73 
Sequential skiplists, definition and design (顺序 跳 
K, WE MAIR), 329-331 
Sequential specification (顺序 说 明 ) 
concurrent objects (并 发 对 象 )，56 
definition (定义 )，49 
Sequential timestamping, Lock class (顺序 时 间 稚 ， 


Lock 类 ) ，34 

Serializable, transactional memory (可 串 行 化 ， 事 
SAFE), 421 

Sets (2) 


definition (7%), 196 
list-based (基于 链表 的 ) 196-198 
Shared concurrent objects, and register space (共享 
并 发 对 象 ， 寄 存 器 空间 ) 72 
Shared counter (共享 计数 器 ) 
approach (方法 )，259-260 
implementation (实现 )，4-5 
quiescently consistent (静态 一 致 ) 270 
Shared-memory multiprocessors, programming 
challenges (共享 存储 器 的 多 处 理 器 ， 程 序 
设计 的 挑战 ) 1 
Shared objects, and synchronization (共享 对 象 ， 
同步 ) 3-6 
Shared state, cache coherence (共享 状态 ， 缓 存 一 
致 性 )，446, 475-476 
Sharing, definition (共享 ， 定 义 ) 474 
SimpleBarrier class, implementation (SimpleBarrier 类 ， 
实现 ) ，399 
SimpleLinear class (SimpleLinear 类 ) 
creators (生成 器 )，366 
implementation (实现 )，352 
Simple readers-writers lock (简单 的 读者 一 写 者 锁 ) 
basic concepts (基本 概念 )，184-185 
fields and public methods ( 域 和 公共 方法 )， 
184 


inner read lock (内 部 读 锁 ) 184 
inner write lock (内 部 写 锁 ) 185 
SimpleTree priority queues (SimpleTree 优 先 级 
队列 ) 
implementation (实现 )，354 
structure (结构 )，353 
Single-reader, single-writer (SRSW, 单 读者 一 单 写 
者 ) 
atomic register (原子 寄存 器 )，77-78, 81-83 
register space (寄存 器 空间 )，73 
safe (安全 )，74 
write order ( 写 次 序 ) 76 
Single-writer atomic snapshot class ( 单 写 者 原子 快 
照 类 ) 
collect method (采集 方法 ) ，91 
update and scan methods (更 新 和 扫描 方法 )， 
91 
SkipList class (SkipList 类 ) 
algorithm (算法 ) ，349 
levels (级 别 ) ，330 
Skiplists (Bk#) 
invention (发 明 ) ，348 
LazySkipList class (LazySkipList 类 )，331- 


332 
software transactional memory ( 软 事务 内 存 )， 
424-425 
unbounded priority queues (无 界 优先 级 队列 )， 
363-366 
SkipListSet class, implementation (SkipListSet 
类 ， 实 现 ) 425 
SkipNode class, interface (SkipNode 类 ， 接 口 )， 
425 


SkipQueue class (SkipQueue 类 ) 
characteristics (特性 ) 365-366 
creators (生成 器 ) ，366 
Sleeping, as Java construct (睡眠 ，Java 构 造 ) ， 
458 
Slot, array-based locks ( 槽 ， 基 于 数组 的 锁 ) 150 
SMP, 参见 Symmetric multiprocessing (SMP) 
architecture 
Snapshots (快照 ) 
construction (ji), 93 
correctness arguments (正确 性 证 明 ) ，90-93 


definition (#32), 87 
and multiple assignment (多 重 赋值 )，110 
obstruction-free (无 障碍 ) 87-88 
wait-free snapshot (无 等 待 快 照 ) ，88-90 
Snooping ( 嗅 探 ) 
cache coherence (缓存 一 致 ) 446 
interconnects (互相 连接 ) 472 
Soft real-time application, definition ( 软 实时 应 用 ， 
定义 )，397 
Software combining, basic concepts (软件 组 合 ， 
基本 概念 )，260-261 
Software implementation (软件 实现 ) 
bitonic network classes ( 双 调 网 络 类 ) ，274-276 
bitonic network proof of correctness ( 双 调 网 络 
正确 性 证 明 ) ，276-278 
periodic counting network (周期 计数 网 ) 279- 
280 
Software transactional memory (STM) atomic 
object implementation ( 软 事 务 内 存 原 子 对 
象 实现 ) ，433-434 
atomic objects (原子 对 象 ) ，429-431 
contention manager ( 争 用 管理 器 ) 431-433 
dependent or independent (相关 或 无 关 ) 431 
first proposal (首先 提议 ) 448 
lock-based atomic objects (基于 锁 的 原子 对 象 ) ， 


438-445 
obstruction-free atomic object (无 干扰 原子 对 
象 )，434-438 


overview (概述 )，424-427 
skip lists ( 跳 表 ) ，424-425 
transactions and transactional threads (事务 和 事 
务 线程 )，427-428 
TThread class (TThread 类 )，426 
zombies and consistency (僵尸 和 一 致 性 ) 428- 
429 
Sorting (排序 ) 
bitonic algorithm ( 双 调 算法 ) ，288-289 
parallel (并 行 )，286 
Sorting networks (排序 网 络 ) 
designing (设计 )，287-288 
OddEven design (0ddEven 设 计 )，288 
structure (结构 )，286-287 
South wires ( 南 线 ) 


索 引 379 


counting networks (计数 网 ) ，270 
periodic network (周期 网 ) 279 
Speculativeness, memory transactions (试探 性 地 ， 
内 存 事务 ) ，422 
Spin-locks ( 自 旋 锁 ) 
definition (定义 )，141, 178 
TAS-based (基于 TAS)，146-147 
Spinning ( 自 旋 ) 
definition (定义 )，141 
hardware concepts (硬件 概念 )，476 
Splitters, sample sorting (分 裂 器 ， 样 本 排序 ) ， 
290 
SRSW, 参 见 Single-reader, single-writer (SRSW) 
SSkipNode class, implementation (SSkipNode 类 ， 
实现 ) 430 
Stack class, definition (Stack 类 ， 定 义 ) 245 
Stamp (标记 ) 
ABA problem (ABA 问 题 )，234 
BoundedDEQueue class (BoundedDEQueue 类 )， 


384 
lock-based atomic object (基于 锁 的 原子 对 象 )， 
439 


Stamped snapshot class, implementation (具有 了 时 
间 惟 的 快照 类 ， 实 现 ) 90 
Start (启动 ) 
C# constructs (C# 构 造 )，460 
Java constructs (Java 构 造 ) ，454 
Starvation, in Lock object (饥饿 ，Lock 对 象 )，24 
Starvation-freedom property (无 饥饿 特性 ) 
definition (定义 )，8-9 
as dependent progress condition (相关 演进 条 
件 )，60 
in Lock algorithm (Lock 算 法 )，24 
in producer-consumer problem (生产 者 一 消费 者 
问题 ) 10-11 
State (状态 ) 
consensus numbers (一 致 数 ) 101-103 
objects (HR), 48 
State machine, definition (状态 机 ， 定 义 ) 21 
Static tree barrier, implementation (静态 树 障 碍 ， 
实现 ) ，402-404 
StaticTreeBarrier class, Node class (Static- 
TreeBarrier 类 ， 结 点 类 ) ，405 
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Step property ( 步 进 特性 ) 
balancing networks (平衡 网 络 ) 272 
bitonic counting network ( 双 调 计数 网 ) ，276 
scheduler (调度 程序 ) 379 
Tree class (Tree 类 ) ，282 
Steps, directed acyclic graph (步骤 , 无 环 有 向 图 )， 
380 
STM, 参见 Software transactional memory (STM) 
Store buffer (存储 缓冲 区 ) ， 参 见 Write buffer 
definition, 478 
Stores (存储 ) 
definition (定义 ) 37 
Lock algorithm bounds (Lock 算 法 限制 )，37 
in registers (寄存 器 )，72 
Striped concurrent Cuckoo hashing (空间 分 带 的 并 
发 Cuckoo 哈 希 ) ，322-324 
StripedCuckooHashSet class (StripedCuckoo - 
HashSet 类 ) 322-323 
Striped hash set (空间 分 带 的 哈 希 集 ) 
basic concepts (基本 概念 )，303-304 
implementation (实现 )，304 
lock striping (空间 分 带 的 上 锁 )，304 
StripedHashSet class (StripedHashSet 类 ) 
implementation (实现 )，304 
lock-based hash table (基于 锁 的 哈 希 表 ) 305 
resizing (调整 ) 306 
Subhistory, concurrent objects ( 子 经 历 , 并 发 对 象 ) ， 


56 

Successful call, definition (成 功 调用 ， 定 义 )， 
196 

Successor state, consensus numbers (后 继 状 态 ， 
一 致 数 ) 101 


Symmetric multiprocessing (SMP， 对 称 多 处 理 ) 
spinning ( 自 旋 )，476 
Symmetric multiprocessing (SMP) architecture (对 
称 多 处 理 器 系统 结构 ) 
basic concepts (基本 概念 )，472-473 
Synchronization (同步 ) 
coarse-grained ( 粗 粒 度 )，195 
coarse-grained hash sets ( 粗 粒 度 哈 希 集 )，302 
fine-grained ( 细 粒 度 ) 195 
hardware instructions (硬件 指令 ) 480-481 
instructions, memory barriers (指令 , 内 存 路 障 )， 


144 
in Java memory model (Java 存 储 器 模型 )，62 
lazy (惰性 )，196 
nonblocking (无 阻塞 )，196 
optimisitc (乐观 )，195 
and shared objects (共享 对 象 ) 3-6 
Synchronization primitives (同步 原 语 ) 
atomic registers (原子 寄存 器 )，103-105 
Common2 RMW registers (Common2 RMW 寄 
存 器 ) 114-116 
compareAndSet() operation (compareAndSet() 
操作 ) ，116-117 
consensus numbers (一 致 数 )，100-103 
consensus protocols (一 致 性 协议 )，106 
definition (定义 )，99-100 
FIFO queues (先进 先 出 队列 )，106-109 
multiple assignment objects (多 重 赋值 对 象 ) ， 
110-112 
read-modify-write operations ( 读 一 改 一 写 操 作 )， 
112-114 
Synchronized blocks, in Java memory model (同步 
块 ，Java 存 储 器 模型 )，62-63 
SynchronousDualQueue class (SynchronousDualQueue 
类 ) 


method and constructor (方法 和 构造 函数 )， 
240 


queue node (队列 结 点 )，239 
Synchronous method, pool (同步 方法 ， 池 ) ，224 
Synchronous queue (同步 队列 ) 

basic concepts (基本 概念 ) 237 

creators (生成 器 ) 241 

implementation (实现 ) ，238 
SynchronousQueue class, implementation (Syn- 

chronousQueue 类 ， 实 现 ) 238 


T 


Table ( 表 ) 
Cuckoo hashing (Cuckoo 哈 希 ) ，316 
definition (定义 ) 299-300 
Tail, definition ( 队 尾 ， 定 义 ) 224 
Tasks, work distribution (任务 ， 工 作 分 配 ) 381- 
382 
TASLock class (TASLock 类 ) 


implementation (实现 ) 144-145 
performance (PERE), 146 
Tentativeness, memory transactions (暂时 地 ， 内 
存 事务 ) ，422 
Termination detection barrier (终止 检测 障碍 ) 
creators (生成 器 ) ，408 
implementation (实现 ) 404-408 
Test-and-set locks (测试 -设置 锁 ) 
basic principles (基本 原则 )，144 
hardware concepts (硬件 概念 ) ，469 
real-world processing (现实 处 理 ) 145-146 
Test-and-test-and-set (测试 一 测试 一 设置 ) 
definition (定义 )，144-145 
hardware concepts (硬件 概念 )，469 
Thief, work stealing (偷窃 者 ， 工 作 窃 取 ) 381- 
382 
Thinlock, 174 
Thread-local objects (局 部 级 线程 对 象 ) 
as C# constructs (〈(C# 构 造 ) 462-463 
as Java constructs (Java 构 造 ) 458-459 
Thread-local storage, Pthreads (本 地 线程 存储 器 ， 
Pthreads ) ，465-466 
Thread-local variables, array-based locks (局 部 线 
程 变 量 ， 基 于 数组 的 锁 ) 150 
Threads (线程 ) 
as C# constructs (〈(C# 构 造 ) 460-461 
definition (定义 ) 71 
hardware concepts (硬件 概念 ) 472 
as Java constructs (Java 构造) 453-454 
Throughput, definition (吞吐 量 ， 定 义 ) 259 
Time, in mutual exclusion (时 间 ， 互 斥 )，21-22 
Timeouts, in queue lock (超时 ， 队 列 锁 )，157- 
159 
Timestamps (时 间 惟 ) 
Bakery lock labels (Bakery 锁 标记 ) ，34 
definition (定义 ) ，72 
overview (概述 ) 33 
TOLock class (TOLock 类 ) 
fields and constructor ( 域 和 构造 图 数 ) 158 
methods (方法 ) 158 
and timed-out nodes (超时 结 点 )，159 
Top wires ( 顶 线 ) 
counting networks (计数 网 ) 270 
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sorting networks (排序 网 ) 286 
Total method, pool (全 局 方法 ， 池 )，223 


Total order, concurrent objects (全 序 ， 并 发 对 象 ) ， 
56 
TourBarrier class (TourBarrier2é) 
implementation (实现 ) 410 
information flow (信息 流 )，411 
Tournament tree barrier, creators (竞赛 树 障碍 ， 生 
成 器 ) ，408 
Transactional cache，hardware transactional 
memory (事务 缓存 ， 硬 事务 内 存 ) 448 
Transactional cache coherence, hardware transactional 
memory (事务 缓存 一 致 性 ， 硬 事务 内 存 )， 
447 
Transactional Locking 2 algorithm, creators (事务 
上 锁 2 算法 ， 生 成 器 ) 448 
Transactional memory (事务 内 存 ) 
atomic primitive problems (原子 原 语 问题 ) ， 
418-420 
compositionality problems (复合 问题 ) 420- 
421 
definition (732), 3 
locking problems (上 锁 问 题 ) 417-418 
overview (概述 ) ，417 
transactions and atomicity (事务 和 原子 性 )， 
421-423 
Transactional threads, and transactions (事务 线程 ， 
事务 )，427-428 
Transactions (事务 ) 
and atomicity (原子 性 ) ，421-423 
definition (732), 421 
and transactional threads (事务 线程 ) 427-428 
Transient communication, and mutual exclusion 
(瞬时 通信 ， 互 斥 )，9 
TreeBarrier class (TreeBarrier 类 ) 
combining tree (组 合 树 )，403 
implementation (实现 )，401-402 
Tree-based bounded priority queues, structure and 
implementation (基于 树 的 有 界 优 先 级 队列 ， 
结构 和 实现 )，353-355 
Tree class, structure (Tree 类 ， 结构 )，282 
TSkipNode class, implementation (TSkipNode2k, 
实现 ) 434 
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TTASLock class (TTASLock 类 ) 
creators (生成 器 ) 172 
exponential backoff (指数 后 退 ) 147-149 
implementation (实现 ) 145,470 
on Shared-bus (共享 总 线 )，146-147 
performance (性 能 )，146 

TThread class, software transactional memory 


(TThread 类 ， 软 事务 内 存 ) 426 
U 


unboundedDEQueue class, implementation (unbounded- 
DEQueue 类 ， 实 现 ) 386-390 
Unbounded heap-based priority queues (基于 堆 的 
无 界 优先 级 队列 ) 
concurrent heap (并 发 堆 )，357-363 
definitions (定义 )，355 
sequential heap (顺序 堆 )，356-357 
Unbounded lock-free queue (无 锁 的 无 界 队 列 ) 
implementation (实现 ) 230-231 
lazy ( 情 性 ) 231-232 
step-wise operation (逐步 求 精 操作 ) , 232-233 
Unbounded lock-free stack (无 锁 的 无 界 栈 ) 
definition (#2), 245 
implementation (实现 ) 246-247 
structure (4544), 246 
Unbounded pool, characteristics (无 界 池 ， 特 性 )， 
223 
UnboundedQueue class, methods (UnboundedQueue 
类 ， 方 法 ) 229 
Unbounded-range priority queue, definition (无 界 
范围 的 优先 级 队列 ， 定 义 ) 351 
Unbounded total queue (完全 无 界 队 列 ) 
deadlock ( 死 锁 )，230 
implementation (实现 ) ，229-230 
Unbounded transactional queue, implementation 
(无 界 事务 队列 , KHL), 422 
Unbounded work-stealing double-ended queues (无 
界 工作 窃取 双 端 队列 ) 
creator (生成 器 ) 392 
implementation (实现 ) 386-388 
Univalence, protocol state (单价 ， 协议 状态 )， 
102 
Universality, definition (通用 性 ， 定 义 )，126 
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